生成AIはどう変化してきたか？　日本マイクロソフト・エバンジェリストがひもとく、その歴史

登壇者の自己紹介とアジェンダ紹介

大森彩子氏：みなさんこんにちは。マイクロソフトの大森です。私からはGenerative AI、生成AIを使ったアプリケーション、サービスを考えている方々に向けて、どのようにGenerative AIを捉えたらいいのか。そして、それを使ったサービスやアプリケーション開発に至るまでのヒントをお話できればと思います。

自己紹介になりますが、あらためまして、マイクロソフトの大森と申します。どうぞよろしくお願いいたします。

先ほど松尾先生（松尾豊氏）からお話もあったとおり、今やGenerative AIの時代になっていますが、実はCognitive AI （認知AI）は2016年からありました。その歴史を振り返って、AIがどう変わったのか。また、アプリケーション開発者はそれをどう捉えればいいのかというお話を前半にいたします。

後半は、実際にGenerative AIをサービスなりアプリケーションへの適用をどのように考えたらいいのか。事例とは厳密には言えませんが、実際に弊社でも活用アプリケーションデモを作成しているので、そちらを基にみなさまのヒントになればというお話をいたします。よろしくお願いいたします。

“Cognitive”という部分でAIはまったく変わっていない

最初に人工知能、AIの捉え方。ちょっと大きいところからいきますが、念のため復習します。「今さら……」という感じもありますが、AIとは何か。（スライドを）ちょっと読みますね。コンピューター上で人間の知能を模倣しているんですね。人間が見たり聞いたりして考えて「どうしようかな？」と思うところまでを真似したものが、人工知能ということになります。

（スライドを示して）ここに「Cognitive」という言葉が使われています。このCognitive AIは、Generative AIの前の時代のAIのことで、要は人間の知能、見たり聞いたり、そして決断するまでに考える部分のことを指しています。

こちらはマシンラーニングの技術を使って、単なる統計解析的なことを行うのではなく、さまざまなデータを利用して、ディープラーニングなどのさまざまな技法を用いて予測をするもの・推測をするものです。その“推測をする”と言っているものと、今のGenerative AIはまったく変わってはいないということがポイントです。

（人工知能の）構成要素としての“データ”ができることもあまり変わっていません。この、“さまざまなデータを集める”ということが、最近本当にできるようになってきています。「IoT」という言葉ももう一般的になってきていますが、さまざまなデータを取得して、それを推察・洞察に使えるようになってきている。推察・洞察の部分にはもちろんマシンラーニングが使えるようになってきているのですが、そういったものが年々幾何級数的に増えてきているのが現状です。

「データの科学」と「機械学習」

いろいろな言葉が出てきているので、ちょっと整理だけしておくと、データサイエンスはデータの科学、マシンラーニングは機械学習、というところ（翻訳）です。これらの用語の説明は、両方ともとても有名な方の言葉なので、ぜひみなさんには覚えていただきたいと思っています。

まずは、「データの科学」。こちらは、林先生（林知己夫氏）という日本の統計学の基礎を作られたという、統計学の父と言える方です。この頃は、現在のようなマシンラーニングなどはなかったので、林先生が定義したのは、さまざまなデータを用いてなにかの予測をすること・洞察をすること。そういったもの全部をデータの科学、データサイエンスと呼んでいます。

（スライドを示して）こちらの「機械学習」は、Samuel先生（Arthur Samuel氏）。こちらも著名なIBMの先生です。Samuel先生がおっしゃっているのは、実際に機械を用いて行う現在のマシンラーニングですね。マシンのパワーを用いて学習させることによって、人間の気がつかないところも含めてさまざまな洞察ができます。

クラウドというと、みなさん今や普通に使っていたり、気がつかないところでも使われていたりもしますが、例えばクラウドコンピューティングなどを使って自由自在にコンピューターリソースを使ったり、集積したりなど、マシンラーニングの技術自体も広まる中で、いろいろと複雑に（クラウド自体もマシンラーニングも組み合わせて）開発がされているので、ある意味人間が想像し得る以上のことがもうできてきていると言っても過言ではないと思います。

Generative AIへの道のり

それでは、ようやくGenerative AIのお話になりますが、いろいろステップがあります。記憶にも新しいとは思いますが、ちょうど2016年ぐらいですね。それこそ、見たり聞いたり話をしたり、そういったものが人間の機能を超えてくる。

例えば写真を見て「これは〇〇の画像だね」。もしくは工場かなにかでエラーを弾くなど、「認知の技術は、もう人間を超えている」というブレイクスルーが起こったのが、2016年から2018年ぐらい。現在に至る中でその技術はより進歩していますが、こちらがいわゆるCognitive AI時代のメインになります。

こちらの年表だと2021年となっていますが、研究技術が結集して、2023年にブレイクして、Generative AIの時代になってきました。

Cognitive AIとGenerative AIでは何が違うのか？

では、これまでのCognitive AIとGenerative AIでは何が違うのか。Cognitive AIは、どちらかというと単品売りでした。例えば「要約をしてください」「翻訳をしてください」などお願いをすると、それだけが単品で返ってくる。当時触ってきた身からすると「翻訳できちゃった」「要約できちゃった」それだけで「すごい」と言っていたのですが、実はもうそれだけではない時代が今のGenerative AIの時代です。

最近のGenerative AIのメインは言語処理ですね。画像系も進んではいるのですが、特に言語系に突出したChatGPTと言われるモデルが一般公開されてきていて、1つのモデルでいろいろな機能ができるようになっているというのが一番の特徴になっています。

あたかもゼロから文章を生成するかのように言われているので、“生成AI”と言っているのですが、技術的にはcompletion（補完する、完成させる）ということで、「その（文章の）次に続くものは〇〇である」とか、「要約として正しいものを推測・推定・推論する」という意味では、AIの基本は変わっていないということになります。

「Bing Chat」のデモ

では、そういったものがどう進化してきたか。弊社の技術になりますが、「Bing Chat」。みなさまにもお使いいただいているかもしれませんが、こちらを例にちょっとご紹介したいと思います。

こちらは私が事前にデモを撮ったものですが、音声で「旅行プランを考えてください」と入力します。

音声が普通に文字起こしできるのを、20代の方々は「当たり前でしょ？」とおっしゃるのですが、いやいや、これって我々からすると最近なんですよね。そういったことができるようになってきて、かつ最初のWeb検索はいろいろな検索結果のページが出てくる中で、自分で情報を見るというものだったのですが、今はもう、それらをいい感じに要約してくれるんですね。

例えば「旅行プランを考えて」と言うと、「こんな感じはどうですか？」というかたちで、朝から晩までのプランを出してくれます。今までのCognitive AIとGenerative AIの一番大きな違いがおわかりいただけるかと思います。全体的なサービスとしては、もちろん全部Generativeに任せているのではなく、今までのCognitiveの技術とうまく噛み合わせながらサービスができているのが現状です。

生成AIで新たにできること

生成AIができる主なタスクの例を挙げてみました。青い四角の部分は、これまでも（CognitiveAIで）できていた領分です。その部分についてはもちろん組み合わせて使ってもいいですし、より精度が増しています。

あとは緑で書いてある四角のところですね。そこは生成AIの領分というところで、あたかもなにかタスクをこなしてくれたかのように生成してくれるということで、とてもみなさんが驚いたというのが、2023年です。

では、具体的にどういった業務に適用できるのか。（スライドを示して）こんなかたちでマッピングをしてみました。より独創的（であるAI）ということで生成の部分が横軸。ゼロからイチを生み出す部分が大きいところから、もう少し規則的に変換するところまでマッピングをしてみました。

例えば弊社製品だと「Microsoft 365」と呼ばれるOffice製品ですね。そこではもうかなり実現できています。あとは（スライドの）左下の部分ですね。コード生成という部分は、マイクロソフトの仲間であるGitHubのCopilotという技術で、コメントからコードを生成するというかたちで生成ができてきています。

残った部分……この灰色の丸の部分ですね。このあたりは、例えばOpenAIであるとか、戦略的な提携をしている弊社のAzureのクラウドで提供されるOpenAIのサービスです。みなさまは、そういったものを使って構成するという分野に関心がおありではないかと思います。

ChatGPTは何がすごいのか

ではここから、アプリケーションやサービスの開発を考えている方にとって、実際にGenerative AIでどういったことが変わったのかについてお話しします。

ChatGPTの何がすごかったのかを、ちょっと復習をしてみます。口語体で入力したことに答えが返ってくる。もちろんそれもすごいんです。それもすごいのですが、それだけではなくて、1つのChatGPTというモデル、APIに対して、なにか複雑なことを投げる（インプットする、API Callする）と、いろいろなことを一度に処理してくれるように見える。いっぺんにやってくれるように見える。

ほかには、ハイコンテクストですね。「いい感じにやってください」という人間の思惑に、なんとなく対応できるようになってきたというのがすごいところではないかなと思います。単に口語がすごいのではなく、隠れた（ハイコンテクストの）前提部分も含めて解釈してくれる。自動化してくれているところが新しいと思います。

なので、これまでCognitive AIを使ってさまざまなサービスを開発した人からすると、「え？　そのあたりは自分で場合分けしなくていいんだ」と。いろいろ段階分けをしなくても、ChatGPTに一度「お願い」とCallするだけで、ここまで思い通りの答えが返ってきちゃうのね、というところが驚きということになります。

大規模言語モデル「LLM」により解析ができるようになった

ChatGPTなり他のGPTのエンジンのシリーズがさまざまな動作ができるのは、Large Language Model、大規模言語モデルにより解析が可能になったからです。

先ほど松尾先生のセッションでも解説がされたと思うので、私はちょっと省略してお話しします。こういったさまざまな技術を使って、インプットされたデータを解析します。学習データとして与えたさまざまな章のデータを解析して、学習させたものを重み付けをして、関連付けて学習させることによって、（スライドを示して）こちらのエンジンは成り立っています。

例えば、日本語で「日本の首都は」と入れた場合、実はこれは質問でもありますが、ChatGPTにとっては「日本の首都は」の後をcompleteする、推定するといった動作になるんですね。なので、さまざまな学習データの中から行われたもので最も近いものを推定します。

そのやり方ですが、この文章自体をトークナイゼーションというかたちで、要は全部、句ごとに切るんですね。切ってその関係性を見て、その中で一番近しいものを持ってきて、こんな感じかなと推測して「日本の首都は東京です」となります。そういった方法で“推定”しています。

世の中の全てのことを知っているというわけではなく、結局こういったGPTエンジンも、そのLarge Language Modelを使って推定をしているので、ある程度の“常識”を持ってはいますが、全部の答えを知っているわけではないということに注意が必要かなと思います。

例えば、社内の特別なデータや、もう少しパブリックなデータでもいいのですが、そういった最新のデータを使って推定をやりたい時には、グラウンディングという言い方をしますが、そういったデータを推定実行時に与えて、この言語モデルを使って、文章を構成させるのが正しいやり方です。

このセッションを聞いているみなさんはおっしゃらないかもしれませんが、「ChatGPTはモデルが古いので嘘をつく」とか「知らないことを知ったかのように言う」というようなことをおっしゃる方が、世の中まだまだいると思います。それはChatGPTの知識が足りないからなので、それ（グラウンディング）を与えてやって文章を構成するところで（ChatGPTに）手伝ってもらうという考え方に、ぜひスイッチしていただければと思います。

みなさまからは、「GPT-3、GPT-3.5、GPT-4でどれぐらい違うのか？」という質問をよくいただくのですが、そもそもパラメーターが増大しています。ちょうど（スライドの）左のほうにも例として書いてありますが、畳み込みのパラメーターも桁違いに増えているので、複雑なことができるようになってきているというのはもちろん事実です。

ちょうど今お話している表の右上になりますが、特に言語関係ですね。そちらのグラフでは文章を構成する能力が上がっています。（右下の図では）GPT-4に「絵を描いて」と言うと、上手になっているかというとそうでもなく、その場合はきちんと他のモデルや（描画が得意な）ライブラリを上手に組み合わせて構成するというのがまだまだ必要なのが現状です。