2024.12.10
“放置系”なのにサイバー攻撃を監視・検知、「統合ログ管理ツール」とは 最先端のログ管理体制を実現する方法
リンクをコピー
記事をブックマーク
ジョン・ヘネシー氏:本日はご来場ありがとうございます。お招きいただいたSansanのみなさまにも感謝します。これからの講演では、最先端の企業であるAlphabetがいかにして真にデータ重視の企業となったかについてご説明したいと思います。
テクノロジーの歴史を創業時からひもとき、AIや生成AIにより生じたすばらしいブレイクスルーに至るまでの経緯をお話ししますが、これらはビジネスのさまざまな要素に変革をもたらすものです。
まずは膨大なデータ量を前提とする、データベースシステムの構築方法から見ていきましょう。システムの進化や動的データの利用方法、また企業におけるシステムの管理方法、データ中心思考の加速について、さらには機械学習や大規模言語モデルでのブレイクスルーもしっかりとご紹介します。
言語モデルのChatGPTについては、みなさんも耳にしたことがあるでしょう。この分野で何が起こっているのかをご理解いただける程度に、少しテクノロジーについて触れたいと思います。
ワールドワイドウェブ(WWW)の黎明期において、まだGoogle社の誕生前、別の企業が検索機能を提供していました。このような企業はたくさんのWebページを調べます。ページを探すためにリンクを使ってクローリングしていました。
当時の検索では、検索のキーワードが頻繫に使われているページが表示されていました。しかしリンクという情報は検索結果に反映されていませんでした。
Googleのラリー・ペイジとセルゲイ・ブリンは、スタンフォードの院生の頃、重要なことに気づきました。彼らは私のコンピューターサイエンスのビルで、リンクの重要性を明らかにしたのです。この重要な気づきがGoogle社の出発点となったのです。
非常に有名な25年前の論文があります。Google社の誕生につながるアルゴリズムの特許、ページランクについて書かれたものです。
彼らの主張とは、重要なWebページが言及するWebページも同様に重要であるということです。これこそが鍵となります。
このインサイトは、デジタルライブラリでの検索方法について考えていた時に生まれました。例えば著名なコンピューターサイエンティストである、アラン・チューリングの有名な論文を検索する時、より多くの人に言及されている対象を探し出したいと考えるでしょう。それが最も重要な論文かもしれないからです。WWWもこれと同じです。重要度の高いページに言及されているページは、それだけ重要と言えます。
このように考えてみてもおもしろいでしょう。ある人がネットサーフィンをしていて、何かのページを閲覧しているとします。ページランクが算出するのは、その人が特定のページにたどり着く可能性です。つまりページの重要性を評価しています。
それこそが原点となる重要なインサイトでした。当時、業界にはInfoseekやAltaVistaなど多数の検索プロバイダーが存在しましたが、Googleの検索アルゴリズムは当初からそれらを超越していました。
データドリブンなビジネスを構築する際の課題の1つとして、結果を操作させないようにする必要があります。結果操作の例は後を絶ちません。人々は常にGoogle検索の結果を操作し順位を上げようとします。そのため、アルゴリズムによりこれを防ぐ必要があります。さもないと検索結果は役に立たないものになるからです。
まずコアアルゴリズムでこれに対処すべきです。同時にアルゴリズムの継続的修正も必要です。詳細なデータディスカバリを基としてデータドリブンな何かを創り出しても、常に進化し品質を向上させる必要があります。
そうしなければアルゴリズムの有効性は失われてしまうからです。絶えずある種の改善を図らなければなりません。これこそGoogleの重要な機能なのです。
アルゴリズムの詳細をすべては公開したくないと考える方もいるはずです。例えば詳細まで公開するとします。そうすることでアルゴリズムを押さえ込む方法が暴かれ、望ましくない行為に及ぶユーザーも現れることになるからです。データドリブンの優れたアルゴリズムがあっても、絶えず改善していく必要があるのです。
検索は時間とともに進化してきました。最適な検索結果を提示できているのかと、私たちも当初は自問しました。何かを検索した時、結果が適切かどうか、どうすればわかるのでしょうか。
私たちは初めの頃、ユーザーを集めて検索結果を評価してもらっていました。Webが小規模な頃はこれで間に合っていました。しかし20年以上を経て、Webは急激に拡大しました。このため検索結果の品質を判断する別の方法が必要となりました。そこで重み付け評価を行うようになったのです。
例えばほかの方々があなたと同じ検索をした場合、どのエントリーをクリックするでしょうか。1つ目のエントリーでしょうか、2つ目や3つ目でしょうか。全員が3つ目をクリックするのならアルゴリズムを調整すべきです。3つ目のエントリーの優先度を上げ、最初に表示されるようにしなければなりません。
これが検索に起きた次なる進化でした。こうした進化において、ユーザーは検索をする際に、品質が高いとされる情報や出版物の内容を照らし合わせるようになります。これらに重み付けを行うことで、回答の合理性を改善したのです。
8~9年前に私たちはGoogle検索を抜本的に改革し、コアテクノロジーとして機械学習を使い始めました。機械学習によって、より多くの要素を検索プロセスに組み込むことが可能になります。
例えば最近の検索履歴の表示や、スペル修正などです。スペル修正は検索において最も重要な機能の1つです。タイプミスは常に起こるものですので、やはりスペル修正は必要です。
さまざまな人が多種多様な内容を検索します。ですから機械学習システムを使い、検索結果を最適化するわけです。そして、長期間をかけて構築された機械学習システムがGoogle検索では活用されています。その機能については後ほどお話しします。
ここでデータドリブンビジネスの事例を紹介しましょう。
Google検索を行うと、検索結果とともに広告も表示されます。では、どの広告を表示すべきなのでしょうか。当初Googleは非常にシンプルな方法を採用していました。検索のたびにオークションを行い、高額入札者の広告を表示していたのです。
しかしこのGoogle検索の仕組みで問題となるのが、ユーザーが広告をクリックした場合にのみ報酬が発生するということです。広告表示だけでは報酬は発生せず、クリックされた時にのみ発生します。品質が低い広告が高額で入札されるとアルゴリズムは破綻します。広告が表示されても誰もクリックしないからです。ユーザーが関心を示す企業の広告ではないからです。
そこでより複雑なアルゴリズムを採用し、入札価格だけではなくクリックされる可能性も予測する必要が生じました。その結果、クリックの確率を高いレベルで予測してくれる優れた検索モデルが構築されています。
これこそが最適化においての鍵になります。できる限り多くの広告のセットを長期にわたり測定し続けることで、データの品質を強化し、さらに高めていくことができます。
これに関して興味深い結果が明らかになりました。低品質の広告を大量に投下するよりも、少数の良質な広告を投下するほうが良い結果が出るのです。
低品質の広告が大量にあるとユーザーを混乱させてしまいます。しかし少数の良質な広告があれば、クリックされる可能性は大幅に高まります。これは予想もしない発見でした。これはエンジニアリングの中で明らかになりました。
次にビッグデータ活用の事例として、Eメールについてご紹介します。
Gmailでは非常に早い段階から迷惑メールフィルターを計画しました。Gmailではすでに15年前の時点で、迷惑メールの増大が問題視されていたからです。今や迷惑メールを受け取ることのほうが多いほどです。
そこで、どのメールが迷惑メールかを正確に検出できる仕組みを構築する必要性が生じます。このために私たちはサポートベクターマシンという技術を活用していますが、詳細は割愛します。いわゆる大量のメールを取り込んでシステムを訓練するというものです。
最初のうちは人手を介して訓練していきます。迷惑メールかどうかを1つずつ判定させていって、セパレーターを構築していきます。これは迷惑メール、これは普通のメール、と分類します。当初はメッセージ本文から判定することができました。迷惑メールと思しき内容を確認できたのです。
やがてこのアルゴリズムは、複雑な機械学習を活用してメッセージ本文の確認をし始めます。メーリングリスト宛か個人宛か、以前にやり取りがある相手かどうか、また件名にワードはあるか否かや、返信用のアドレスは正確かといったポイントを確認します。
これらによりフィッシング詐欺が抑止されます。これがいわゆる、さまざまなパラメーターを持っている超平面と呼ばれるものです。この高次元の空間でメッセージが迷惑メールかどうかを判定するのです。
Gmailにおいてもそうですが、ほかでも数百万のユーザーがいると、迷惑メールの判定は非常に頻繫に行われます。ユーザー数が何百万といると、仮に1,000人または1パーセントでもユーザーが「これは迷惑メールだ」と判定した場合、その信頼性は高いと考えられます。よって迷惑メールフィルターに入力し、これにより迷惑メールフィルターの品質が以前より劇的に改善しました。
すると迷惑メールやプロモーション、ソーシャルメディアのメッセージ、フィッシング詐欺や危険性の高いメールなどを分類できるようになります。完全な分類の実現も間もなくでしょう。進化をしてきたからこそのテクノロジーと言えます。
しかし問題は残っており、ハッカーたちが常にシステムに侵入しようとしています。これは後ほどお話ししたいと思います。
2024.12.10
メールのラリー回数でわかる「評価されない人」の特徴 職場での評価を下げる行動5選
2024.12.09
国内の有名ホテルでは、マグロ丼がなんと1杯「24,000円」 「良いものをより安く」を追いすぎた日本にとって値上げが重要な理由
2024.11.29
「明日までにお願いできますか?」ちょっとカチンとくる一言 頭がいい人に見える上品な言い方に変えるコツ
2024.12.09
10点満点中7点の部下に言うべきこと 部下を育成できない上司の特徴トップ5
2024.12.04
いつも遅刻や自慢話…自分勝手な人にイラっとした時の切り返し 不平等な関係を打開する「相手の期待」を裏切る技
2023.03.21
民間宇宙開発で高まる「飛行機とロケットの衝突」の危機...どうやって回避する?
2024.12.03
職場の同僚にイライラ…ストレスを最小限に抑える方法 臨床心理士が語る、「いい人でいなきゃ」と自分を追い込むタイプへの処方箋
2024.12.06
嫌いな相手の行動が気になって仕方ない… 臨床心理士が教える、人間関係のストレスを軽くする知恵
2024.12.05
「今日こそやろう」と決めたのに…自己嫌悪でイライラする日々を変えるには
PR | 2024.12.04
攻撃者はVPNを狙っている ゼロトラストならランサムウェア攻撃を防げる理由と仕組み