Googleの共同創業者が気づいたリンクの重要性

ジョン・ヘネシー氏:本日はご来場ありがとうございます。お招きいただいたSansanのみなさまにも感謝します。これからの講演では、最先端の企業であるAlphabetがいかにして真にデータ重視の企業となったかについてご説明したいと思います。

テクノロジーの歴史を創業時からひもとき、AIや生成AIにより生じたすばらしいブレイクスルーに至るまでの経緯をお話ししますが、これらはビジネスのさまざまな要素に変革をもたらすものです。

まずは膨大なデータ量を前提とする、データベースシステムの構築方法から見ていきましょう。システムの進化や動的データの利用方法、また企業におけるシステムの管理方法、データ中心思考の加速について、さらには機械学習や大規模言語モデルでのブレイクスルーもしっかりとご紹介します。

言語モデルのChatGPTについては、みなさんも耳にしたことがあるでしょう。この分野で何が起こっているのかをご理解いただける程度に、少しテクノロジーについて触れたいと思います。

ワールドワイドウェブ(WWW)の黎明期において、まだGoogle社の誕生前、別の企業が検索機能を提供していました。このような企業はたくさんのWebページを調べます。ページを探すためにリンクを使ってクローリングしていました。

当時の検索では、検索のキーワードが頻繫に使われているページが表示されていました。しかしリンクという情報は検索結果に反映されていませんでした。

Googleのラリー・ペイジとセルゲイ・ブリンは、スタンフォードの院生の頃、重要なことに気づきました。彼らは私のコンピューターサイエンスのビルで、リンクの重要性を明らかにしたのです。この重要な気づきがGoogle社の出発点となったのです。

検索アルゴリズムの役割

非常に有名な25年前の論文があります。Google社の誕生につながるアルゴリズムの特許、ページランクについて書かれたものです。

彼らの主張とは、重要なWebページが言及するWebページも同様に重要であるということです。これこそが鍵となります。

このインサイトは、デジタルライブラリでの検索方法について考えていた時に生まれました。例えば著名なコンピューターサイエンティストである、アラン・チューリングの有名な論文を検索する時、より多くの人に言及されている対象を探し出したいと考えるでしょう。それが最も重要な論文かもしれないからです。WWWもこれと同じです。重要度の高いページに言及されているページは、それだけ重要と言えます。

このように考えてみてもおもしろいでしょう。ある人がネットサーフィンをしていて、何かのページを閲覧しているとします。ページランクが算出するのは、その人が特定のページにたどり着く可能性です。つまりページの重要性を評価しています。

それこそが原点となる重要なインサイトでした。当時、業界にはInfoseekやAltaVistaなど多数の検索プロバイダーが存在しましたが、Googleの検索アルゴリズムは当初からそれらを超越していました。

データドリブンなビジネスを構築する際の課題の1つとして、結果を操作させないようにする必要があります。結果操作の例は後を絶ちません。人々は常にGoogle検索の結果を操作し順位を上げようとします。そのため、アルゴリズムによりこれを防ぐ必要があります。さもないと検索結果は役に立たないものになるからです。

まずコアアルゴリズムでこれに対処すべきです。同時にアルゴリズムの継続的修正も必要です。詳細なデータディスカバリを基としてデータドリブンな何かを創り出しても、常に進化し品質を向上させる必要があります。

そうしなければアルゴリズムの有効性は失われてしまうからです。絶えずある種の改善を図らなければなりません。これこそGoogleの重要な機能なのです。

アルゴリズムの詳細をすべては公開したくないと考える方もいるはずです。例えば詳細まで公開するとします。そうすることでアルゴリズムを押さえ込む方法が暴かれ、望ましくない行為に及ぶユーザーも現れることになるからです。データドリブンの優れたアルゴリズムがあっても、絶えず改善していく必要があるのです。

検索を進化させた「重み付け評価」

検索は時間とともに進化してきました。最適な検索結果を提示できているのかと、私たちも当初は自問しました。何かを検索した時、結果が適切かどうか、どうすればわかるのでしょうか。

私たちは初めの頃、ユーザーを集めて検索結果を評価してもらっていました。Webが小規模な頃はこれで間に合っていました。しかし20年以上を経て、Webは急激に拡大しました。このため検索結果の品質を判断する別の方法が必要となりました。そこで重み付け評価を行うようになったのです。

例えばほかの方々があなたと同じ検索をした場合、どのエントリーをクリックするでしょうか。1つ目のエントリーでしょうか、2つ目や3つ目でしょうか。全員が3つ目をクリックするのならアルゴリズムを調整すべきです。3つ目のエントリーの優先度を上げ、最初に表示されるようにしなければなりません。

これが検索に起きた次なる進化でした。こうした進化において、ユーザーは検索をする際に、品質が高いとされる情報や出版物の内容を照らし合わせるようになります。これらに重み付けを行うことで、回答の合理性を改善したのです。

8~9年前に私たちはGoogle検索を抜本的に改革し、コアテクノロジーとして機械学習を使い始めました。機械学習によって、より多くの要素を検索プロセスに組み込むことが可能になります。

例えば最近の検索履歴の表示や、スペル修正などです。スペル修正は検索において最も重要な機能の1つです。タイプミスは常に起こるものですので、やはりスペル修正は必要です。

さまざまな人が多種多様な内容を検索します。ですから機械学習システムを使い、検索結果を最適化するわけです。そして、長期間をかけて構築された機械学習システムがGoogle検索では活用されています。その機能については後ほどお話しします。

データドリブンビジネスの事例

ここでデータドリブンビジネスの事例を紹介しましょう。

Google検索を行うと、検索結果とともに広告も表示されます。では、どの広告を表示すべきなのでしょうか。当初Googleは非常にシンプルな方法を採用していました。検索のたびにオークションを行い、高額入札者の広告を表示していたのです。

しかしこのGoogle検索の仕組みで問題となるのが、ユーザーが広告をクリックした場合にのみ報酬が発生するということです。広告表示だけでは報酬は発生せず、クリックされた時にのみ発生します。品質が低い広告が高額で入札されるとアルゴリズムは破綻します。広告が表示されても誰もクリックしないからです。ユーザーが関心を示す企業の広告ではないからです。

そこでより複雑なアルゴリズムを採用し、入札価格だけではなくクリックされる可能性も予測する必要が生じました。その結果、クリックの確率を高いレベルで予測してくれる優れた検索モデルが構築されています。

これこそが最適化においての鍵になります。できる限り多くの広告のセットを長期にわたり測定し続けることで、データの品質を強化し、さらに高めていくことができます。

これに関して興味深い結果が明らかになりました。低品質の広告を大量に投下するよりも、少数の良質な広告を投下するほうが良い結果が出るのです。

低品質の広告が大量にあるとユーザーを混乱させてしまいます。しかし少数の良質な広告があれば、クリックされる可能性は大幅に高まります。これは予想もしない発見でした。これはエンジニアリングの中で明らかになりました。

Gamilに見る、ビッグデータの活用事例

次にビッグデータ活用の事例として、Eメールについてご紹介します。

Gmailでは非常に早い段階から迷惑メールフィルターを計画しました。Gmailではすでに15年前の時点で、迷惑メールの増大が問題視されていたからです。今や迷惑メールを受け取ることのほうが多いほどです。

そこで、どのメールが迷惑メールかを正確に検出できる仕組みを構築する必要性が生じます。このために私たちはサポートベクターマシンという技術を活用していますが、詳細は割愛します。いわゆる大量のメールを取り込んでシステムを訓練するというものです。

最初のうちは人手を介して訓練していきます。迷惑メールかどうかを1つずつ判定させていって、セパレーターを構築していきます。これは迷惑メール、これは普通のメール、と分類します。当初はメッセージ本文から判定することができました。迷惑メールと思しき内容を確認できたのです。

やがてこのアルゴリズムは、複雑な機械学習を活用してメッセージ本文の確認をし始めます。メーリングリスト宛か個人宛か、以前にやり取りがある相手かどうか、また件名にワードはあるか否かや、返信用のアドレスは正確かといったポイントを確認します。

これらによりフィッシング詐欺が抑止されます。これがいわゆる、さまざまなパラメーターを持っている超平面と呼ばれるものです。この高次元の空間でメッセージが迷惑メールかどうかを判定するのです。

Gmailにおいてもそうですが、ほかでも数百万のユーザーがいると、迷惑メールの判定は非常に頻繫に行われます。ユーザー数が何百万といると、仮に1,000人または1パーセントでもユーザーが「これは迷惑メールだ」と判定した場合、その信頼性は高いと考えられます。よって迷惑メールフィルターに入力し、これにより迷惑メールフィルターの品質が以前より劇的に改善しました。

すると迷惑メールやプロモーション、ソーシャルメディアのメッセージ、フィッシング詐欺や危険性の高いメールなどを分類できるようになります。完全な分類の実現も間もなくでしょう。進化をしてきたからこそのテクノロジーと言えます。

しかし問題は残っており、ハッカーたちが常にシステムに侵入しようとしています。これは後ほどお話ししたいと思います。