ChatGPTが学習済みの単語数

深津貴之氏(以下、深津):ChatGPTの裏側にあるGPT-3というAI。ChatGPTは商品名で、裏側にGPT-3というエンジンみたいなものがあるんです。

そのエンジンが実際何をやっているかというと、すごくシンプルなAIです。文章があって「この文章の前半だけがあります、後半が欠けています。ありえそうな感じで続きを書いてください」というAIですね。

徳力基彦氏(以下、徳力):これだけですね。

深津:そう。質問に答えるとか、調べて教えるとか、そういうAIではないんです。

徳力:確率的にありそうな続きの文字をつなげていっているだけですか。

深津:「文字をつなげてください。数珠つなぎに書いてください」。次のページに具体例がありますけど、じゃあ僕が「昔々」と言うと、確率的に次に文章にくるのは「あるところに」で、「昔々あるところに」とくると、確率的にくるのは「おじいさんとおばあさんが」、その次は「暮らしていました」とくる。

徳力:そうですね(笑)。

深津:逆に確率的に低い「ダレイオス三世とアレクサンダー大王が天下を中原で争っていました」みたいな、そういう文章はボツになって出てこない。

徳力:どこかの国だとあるかもしれないですけどね(笑)。日本ではないですね。

深津:これがローマや中原で作ったAIだったらありえるかもしれませんね。

徳力:ごめんなさい、余計なことを言いました(笑)。

深津:で、こんなしりとりみたいな、子どもの遊びみたいなことをやるだけのAIを、5兆単語ぐらい……5兆単語ってどんな単語があるかよくわからないですけど。

徳力:数が多すぎて想像できないです。

深津:5兆単語ぐらいで組み合わせたら、この世のすべての単語の組み合わせを確率計算すると、それっぽい文章ができてしまった。

徳力:こんなシンプルな話なんだ、へぇー。

深津:すごく雑に言ってしまうと、ミキサーでいろんなものを混ぜたら、すごくおいしいものができた、みたいな力技でできあがったのが、このAIの正体。

徳力:(笑)。そういうことですね。

「機動戦士」と聞いたら「ガンダム」と答えてしまうのがChatGPT

深津:手前の文章に確率的にありそうな文章をどんどん付け加えていくだけです。例えば手前の文章が医療の論文だとしたら、医療の論文としてありそうな単語をつなげていって論文が完成してしまったり。小説っぽい文章に対して、小説っぽく続けていくだけで、会話のシーンが作れてしまったりとか。

実はいろんなことができる。AIがすごいというより「我々人間は本当は知性を持っていないのではないか」と、逆の仮説が生まれる状況だったわけですね(笑)。

徳力:(笑)。なるほど、ちょっと哲学的な話になるんですね。

深津:僕らも単に単語の羅列を追いかけているだけかもしれない、みたいな。

徳力:そうか……あれだけしゃべり返してくれると、なんだか知性を感じてしまいます。

深津:頭が良さそうに見えるけど、実際は僕がしゃべった言葉があって、それを隣の部屋で誰かが「この文章の次につなげそうな返事を書いてください」みたいに設問する。返事が戻ってきて、また僕が文章を書いたら「この3単語の会話について次の会話を、また確率上それっぽいものを返しておいてください」みたいなのを延々と繰り返すだけです。

徳力:今YouTubeのチャット欄で「日本語だと英語に比べて精度が大きく落ちます」というコメントがあるんですが、これはたぶん言語によって学習してる量が違うからですよね。

深津:そうですね。これはたぶん世界における言語の中の日本語の比率が少ないという話だと思います。詳しい数字はわからないですけど、単純に学習量が少ないからですよね。

徳力:そっか、だからとにかく続きを学習させ続けることによって、どんどん賢くなっていくだろうということですね。

深津:そうそう、それだけです。「機動戦士」と出たら「ガンダム」と答えているだけで、それをすごく積み重ねていったらこんなものができてしまった。それが、このChatGPTの中身です。

徳力:どんどん続けていきましょう。

深津:今日理解してもらいたいことは、実はすでに言い終わったんです。

徳力:(笑)。「こういう仕組みのものだよ」ですよね。

深津:「手前の文章に対してそれっぽい続きを書きます、終わり」だけ理解をしておけば、ChatGPTを使いこなす真髄を理解したことになるんですよね。

徳力:なるほどね、だから合っているかどうかとかではないんですよね。

深津:合っているかどうかではない。前に対して後が続いてくるだけ。

徳力:それを理解して使えば、さっきの上級編的な、深津さん的な使い方のコツがわかってくるみたいな話ですね。

深津:あとでそこに至るまでのことも全部ご説明します。

ChatGPTをブレスト相手にするために理解しておきたいこと

深津:今のことから考えられる注意点としては、それっぽい単語をつなげているだけで、知性はないのでわりとデタラメもしゃべる。

一番わかりやすい例で言うと、インターネットでみんなが間違っている知識があるとします。ChatGPTの特性は、「手前の文章に対してそれっぽい続きを書く」こと。みんなが間違っている知識が後に続く言葉として返ってくる確率が高くなるので、残念ながらみんなが間違っている知識をすらっとしゃべったりするんですね。

徳力:ネット上のバイアスはそのまま覚えてしまうんですね。

深津:そうそう。逆に確率上一番高いことだけ言ってくれるということは、無難なことしか言わないということでもあるんですよね。

だから、またガンダムの話に戻りますけど、画期的なタイトルと言われた時に「機動戦士」と言われたら、ChatGPTは「ガンダム」と答えてしまうんですよ。「機動戦士」と言った時に「えりこちゃん」とかは、絶対出てこないわけですよね。

徳力:ブレストの相手もできるかなと思ったんですけど、本当の意味でのブレストにはあんまりならないんですね。

深津:さっき言った特性をうまく活かせばブレストの相手にもできるんですけど、素直に「ブレストをして」とか「アイデアをちょうだい」とか「レビューして」と言うと、この子たちは、一番無難な答えを返してきます。

なので「ブレストで役に立たないな」とか「アイデア出しの役に立たない」と感じているとしたら、ど真ん中の答えを返されているからかもしれないですね。

間違った情報を提示するわけ

深津:同じように、それっぽい単語だから真実である保証はない。さっき言ったようにみんなが間違っていることは、この子も間違っているかもしれないのが1つ。

もう1つは、この子が学習していないことについても、一番確率が高い答えを引っ張ってくるだけです。あたかも知っていることのように、デタラメにしゃべってくれます。

徳力:そういうことですよね。だから「申し訳ございません」と謝って、「答えられない」と言ってくる時もありますけど、本当にわかっていないと自分がわかっていない時には、適当につなげたものを答えてくる。だから、間違っていることが普通に出てくるんですね。

深津:そう。あれは厳密に言うと「top_p」と言って、「それっぽさが何パーセント以上だったら答える。それっぽさが何パーセント以下だったら、わかりませんと言う」という仕組みになっているんです。あくまで確率で判断しているので、何パーセント以上を知ったかぶることも、ぜんぜんあるわけです。

徳力:なるほど。

深津:なので、ここに書いてあるように「2021年より先を知らない」みたいなこともあって。

このGPT-3が2021年ぐらいにできたからですね。なので2022年、2023年のことは今の段階だと「知らん」と答えるか、息を吸うように知ったかぶって答えるかになります。

徳力:これはChatGPTが今そういう状態になっているだけで、新しいサービスとかは当然変わってくるでしょうね。

深津:これから出てくる、GPT-4とか5とか6になると「自分で検索して調べたから答えました」と言ってきたりとか、半年に一度自分で調べて自分の知識アップデートします、みたいになってくると思いますけれども。今はまだそうじゃない。

「確率上それっぽいことをしゃべる」という特性を理解する

徳力:でも、今YouTubeのチャット欄に「実はチャット欄にChatGPTが混じっていたりして」みたいなコメントがあります(笑)。

深津:いるんじゃないですか?

徳力:チャットの前の流れを見て、続きを書くみたいなものだったら、すぐに作れてしまうんですもんね。

深津:そうそう、『アンドロイドは電気羊の夢を見るか?』みたいな感じで。

徳力:それ若い人わかるかな……僕は今めちゃめちゃ懐かしい気持ちになりましたけど。

深津:そういうSF小説があったんですよね。

徳力:ありましたね。なるほどね、混じっていてもおかしくはない。

深津:あと、さっき言ったように確率でやっているので、世の中が持っているバイアスに結論が引っ張られる。

例えば(スライドの)下に書いてあるけど、結婚式の話を聞いたら、たぶん高確率で教会で牧師さんが立ち会いで実施する形式の話になります。「お医者さんとはどういう人?」と聞いたら、高確率で「白人の男性」と答えてしまうかもしれない。

世の中のテキストの確率分布にしたがった偏見を、そのまま背負っている業がありますね。これもそのうち解決するとは思いますけど、今はそうです。

そこが注意点ですけど、さっきの「確率的にそれっぽいことをしゃべるよ」を具体例で説明したにすぎない。確率上それっぽいことをしゃべることさえ理解していれば、たどり着けるし納得できるのではと思います。

徳力:ここまででも、見ている方で詳しい方は「当たり前だよ」という話かもしれないですけど、僕も相当誤解をしていたことがよくわかりました(笑)。意外にシンプルな仕組みですよね。だから少なくとも今の段階では、検索の代わりに使うこと自体がそもそも間違っている。

深津:逆を言えば、確率上、どう考えても常識に近いことはそんなに間違えないでしゃべってくれる。誰もが知っている常識から少しずつずれた知識であるほど、とんでもないことを急に言い出す可能性が高くなるわけですね。