ChatGPTは何が革命的なのか?

元榮太一郎氏(以下、元榮):よろしくお願いします。今日は、ビジネスパーソンのみなさんが視聴されていると思いますが、さっそく生成AIの歴史と今後について明らかにしていきたいと思います。まずは伊藤さんにうかがっていきたいのですが、「ChatGPT」の何が革命的なんでしょうか?

伊藤穰一氏(以下、伊藤):自然言語でコミュニケーションがとれて、今までだったらプログラマーじゃなきゃアクセスできないようないろんな機能が一般の人でも使えるようになった。今までAIっていろんなものに組み込まれていたけど、一般の人たちが接触できるようになったのが大きかったんじゃないですかね。

元榮:そうですよね。そんな中でなぜ「ChatGPT」のような、高度な生成AIが生まれたのかというところですが、松尾さん、この点はいかがですか?

松尾豊氏(以下、松尾):そうですね。「ChatGPT」などの大規模言語モデル(LLM)には「Transformer」という技術が使われています。Transformerは2017年にGoogleの研究者らが提案したもので、非常に精度が高いので、それを大規模に使うということが進み、「ChatGPT」で一般の方も触れられるようになったというかたちだったんです。

元榮:私は去年の11月に「ChatGPT」の報道に触れて、なんかとんでもないものが出てきたぞと思ったんですが。この世界に非常に詳しいお二人は、この波が来ることをいつ頃から認識していたんでしょうか。

伊藤:僕はその前の年の8月ぐらいに(OpenAI社の創業者である)サム・アルトマンとか他のメンバーたちと会っていて。いろんなデモをこっそり見せてくれて、とても驚いていました。でも、その時は言えなかったんです。だから、その次の年までずーっと黙っていた。

元榮:やはり秘密にしなければならなかったんですね?

伊藤:そう、「話さないなら見せる」みたいな(笑)。松尾先生みたいに、ずっと前からトラッキングしていたわけではなくて、サムに見せてもらっただけですが。

元榮:でも、僕や世の中が知ることになる1年以上前からこういう時代が来ると感じていたということですね。

伊藤:そうです。「GPT-3」はずいぶん前から知っていて。そして「GPT-4」のリリースが2023年3月。「3」もけっこうおもしろかったんですが、「4」でまた夢が広がったというのがあった。

「GPT-3」の時点で受けた衝撃

元榮:松尾さんはウォッチをし続けてきた。

松尾:そうですね。「GPT-3」が2020年に出て。その時、アカデミアの人たちは「これはすごい」とざわついたんですね。その頃から僕は、講演では必ず大規模言語モデルとして「GPT-3」の話をしましたけど、あまりウケは良くなかった。

ただ、すごいモデルなんですよね。松尾研で「Let's think step by step」っていう研究があるんですが、1年以上前に出した論文ですけど、LLMに質問する時に「Let's think step by step」という1行を加えるとなぜか精度が上がる。研究室の中で「これ、おもしろいね」となり、論文にしようってなったんです。わりと衝撃的というか、よくわからないわけですよ。

元榮:不思議ですね。

松尾:「step by stepで考えなさい」と言うと精度が上がる。これはけっこうすごいことが起こっているという感覚がありました。

元榮:2020年に「GPT-3」が出た時はアカデミック界隈で話題でしたが、2022年11月に「GPT-3.5が出た時は世界中でとんでもない話題を生みましたよね。これは何が違ったんですか。

伊藤:やっぱり、アプリにしたこと。その前も、プレイグラウンドみたいにはできたんだけど、アプリになったことで誰でも利用できちゃうという。みんなテキストメッセージには慣れてるじゃない。だから革命的だったと思います。

元榮:それまではアプリじゃなかったんですね。

伊藤:Webサイトに行って、登録してうんぬんかんぬん。そこがちょっと障害だったんじゃないかなと思いますけど。

元榮:UIのちょっとしたバージョンアップ。

伊藤:……かなと思うんですけど、どう思いますか?

松尾:あと、インストラクションチューニングですね。これをやると言うことを聞くんですよ。通常LLMをそのまま使っちゃうと、後ろに単語の出力を続けるので、言ったことを繰り返すとか、いろいろと起こるんです。

でも、「ChatGPT」は上手にしつけられているというか、ちゃんとユーザーの意図を汲んで答えるようにできているので、かなり絶妙に作られていると思いますね。

元榮:「GPT-3」はそういうインタラクティブ性はなかったんですか。

松尾:「GPT-3」は、次の単語が何かを確率的に出すというものです。

人間の会話って、「こういうふうにしてほしい」というのが、かなり隠されているんですよ。「ちょっとその水、取ってください」でも、「ちょっとその水、いいですか」でも、どっちの伝え方でも取ってくれるわけです。

そういうのはかなり教えないと意図どおりに動いてくれないので。そこの部分をGPT-3.5以降は相当作り込んでいる感じですよね。

GPTのアップデート

元榮:「GPT-3」「GPT-3.5」「GPT-4」のそれぞれのパラメーター数はどんな感じなんですか? パラメーターの数が違うから、「3」から「3.5」で相当進化したことになるんですよね。

松尾:そうですね。「3」が1,650億パラメーターで、「3.5」が3,500億パラメーターぐらい。「4」が2兆パラメーターという噂ですけど。

元榮:なるほど。パラメーター数でみると相当違いますね。「GPT」に関しては、最近の技術的なアップデートみたいなところって何かありますか?

伊藤:1つはファインチューニングで、ちょっとずつ安全になってきた。最後の仕上げのところが、いろいろとチューニングされてきていること。最近トークンの数や、インプットとアウトプットの文章の長さが増えたり、少しずつ進化はしていますね。

元榮:なるほど。松尾さんはどうですか。

松尾:そうですね。そんな印象はありますね。今度Googleから「Gemini」っていうのが出るんですよね。これがどのぐらいの性能で、どのぐらいのパラメーター数なのかは興味のあるところですかね。

元榮:「Gemini」というのが出るんですか。

松尾:そうですね。もう公表されていますけど。Googleがけっこう本気を出してきているはずなので。

伊藤:あと今日、携帯で見たんですけど、「ChatGPT」に画像認識とボイス認識機能が入ると。確か「GPT」の発表の時にマルチモーダルと言って、映像とかも扱うと言っていたんだけど出さなかったんだよね。動かすのにけっこういろんなトラブルがあって。それがようやく出てくると言っていましたね。

性能の高いLLMを作るポイント

元榮:これからも非常に激動のアップデートがあるわけですけれども、やはり日本も新しい成長産業として、このAIを活用してさらに成長していきたい。日本のLLM開発が国際的な競争力を持つために必要なことをいろいろとうかがっていきたいんですけれども。

今少し「Gemini」の話も出ましたけど、今後の世界の方向性はどうなっていくんでしょうか。例えば、GAFAMとかOpenAIみたいなテックジャイアントが席巻してしまうのか。

それとも、複数のAIが立ち上がって群雄割拠していくのか。ここらへんについて、まず伊藤さん、いかがですか?

伊藤:最近のAIを使うスタートアップを見ても、モデルを入れ替えても大丈夫な設計になっている。いろんなモデルがいろんな競争をして、それを上手に組み合わせるのがユーザー側なので。ユーザーからすると、クラウドがどんどん進化してどこのものを使ってもあまり変わんないという設計になりつつあるのかなと。

巨大なモデルは作るコストも高いし、使うコストも高いし、処理スピードも遅いので、分野ごとに特化したモデルがずいぶん出てきている。僕が投資してるコンタクトセンターのASAPPも「GPT」の10分の1の値段と10分の1のスピードで簡単なサマリーや解析ができて。そういうナローな機能をもつものが出てきている。

たぶん分野に特化したモデルを出して、それをつないでいくのがこれからの流れかなと。日本は日本ならではの文脈がたくさんあるので、そういうのはどんどん作っていけるんじゃないかなと思いますね。

元榮:おもしろいところですね。松尾さんはどうでしょう?

松尾:学習時と推論時で考えは異なりますが、推論時はどんどん軽いモデルになるというのはあると思います。あとデータ、計算資源、モデルで、3つ重要な要素があるわけですけど。ほとんどの重要なデータがインターネット上にないとすると、データが一番ボトルネックになるんですよね。

ちゃんとしたデータを学習させたほうがLLMとして特定領域においては性能が出るはずです。言語だったり医療とか製造とかのドメインだったり、法律もそうだと思いますけども、そういう進化をしていくんじゃないかと思います。

伊藤:確かAdobeの画像の生成AIは、少ないけども質が高いデータでけっこういいものができたんだよね。「ChatGPT」とかは、インターネットのゴミも含めて全部食べているからハルシネーションが起こるんだけど。

今、松尾先生がおっしゃった話に近いんですけど、きちっとした法律の文章だけで学習すればもっと少ないデータでもっと質が高いものができるんじゃないかなっていうのが1つの仮説としてあると思うし。

なんでもかんでもLLMのモデルにしないで、医療データをLLMと接続して構造的にきちっとなっているのはそういうAIモデルで。

今だとプログラマーとか数学のPh.D.(博士号)がないとわかんないようなデータが、普通のお医者さんが自然言語で話して、裏で違うAIが動くというインターフェースもできてくると思います。

日本国内でも進む、企業によるLLM開発

元榮:そんな中、国内でも各企業がLLM自体の開発を計画しているということで、松尾さんから資料をいただいていますが、簡単に説明いただけますか。

松尾:スライドを見ていただくと、松尾研究室も先日100億パラメーターのモデルを出しました。他にもいろんな企業さんがLLMを出しています。ただ、どのLLMも概ね100億パラメーター前後のものが多く、世界基準で言うと2桁足りないんですよね。

ただ、エンジニアリングの基本は自分で作ってみることなので、こういった小さいものをどんどん作っていくのは僕はいいことじゃないかと思っています。小さければコストも安くできますし、そういう中でノウハウを溜めて、大きなものを作る必要があるなら作ればいいし、もっと工夫ができるなら工夫をしていけばいいと思いますね。

元榮:ちなみに松尾研究室で100億パラメーター程度のモデルを作られて、そこから得られた気づきみたいなものってありましたか。

松尾:まず、小さいモデルから順番に作っていくんですね。当たり前ですけど、失敗したらもったいないので、1・10・100と作っていきます。それから、「日本語に強い」ものを目指すんですけど、やっぱり英語データを入れたほうが精度が上がるんですよ。

なので、基本英語で賢くしておいて、プラスアルファで日本語などのマイナー言語を加えて賢いものを作っていくのがたぶん主流のやり方になる感じはします。

元榮:例えば100億パラメーターあったら、日本語をどのくらいの割合にするのが加減がいいんでしょうか?

松尾:何パーセントまでは実験していなかったんじゃないかな。だいたい同じぐらいの規模で実験していましたね。

ただ、だんだん加えれば加えるほど精度が良くなってくる感じなので、データ数が多ければ多いほどいいとは思いますね。

伊藤:おもしろいよね。人間もそうかもね。

松尾:そうなんですよ。

伊藤:英語の論文を読まない日本人よりも、両方読んだほうがいいよねみたいな(笑)。

元榮:確かにリアルの世界でも、そういう想像がつきますからAIもそうなんでしょうけども。いろいろなLLMが国内から出てきていますがそれぞれの特色を分類するとどんな感じでしょう。

松尾:オープンソースで似たようなものをベースにしてるので、実はけっこう似ていると思います。「ChatGPT」が流行る前からやっていたところもあるので、そういったところはこれまでの蓄積があるという感じですね。

法律特化型のバーティカルLLMの魅力

元榮:巨大なLLMではなく、それぞれに専門分化したバーティカルLLMの有用性について、お二人にお話しいただきましたけど。

弁護士ドットコムの場合は法律特化型のバーティカルLLMということで、インターネットも含めて世の中に出ていない、我々だけが所有するリーガル情報。例えば裁判官の口コミデータや、弁護士ドットコムに寄せられる「みんなの法律相談」というQ&Aの件数が今130万件ぐらいあるんですけど。

こういう生のユーザーに対する生の弁護士の回答のQ&Aをデータとして活かしたりとか。そういうかたちで、どんどんクローズドなリーガル情報でこのLLMをファインチューニングしたり、データベースを参照させるかたちでやっていこうと思うんですけど。こういう切り口はいかがでしょうか? では松尾さんからお願いします。

松尾:すばらしいと思いますね。僕は講演のたびに、弁護士ドットコムさんのスライドを入れて説明しているんで、相当宣伝している気がします。

元榮:いや、うれしいですね。

松尾:本当にいい取り組みだと思います。どっちかと言うと、こういう法律の分野は最先端の技術から遅れがちというか、最後になって嫌々やるみたいな感じが普通だと思うんですけど。こういうふうに真っ先にやっているのはすばらしいと思います。

国内でもそうですし、グローバルにもどんどん新しい領域が広がってくると思うので、こういったトライアルはすばらしいなと思いますね。

元榮:弁護士ドットコムの社員は、今とても励みになったところだと思いますけど(笑)。伊藤さん、いかがでしょうか。先ほどもおっしゃっていましたけど、バーティカルなLLMが各領域で育って、それが連携していくという未来なんでしょうか。

伊藤:僕も松尾先生と同じで、すごくいいアプリケーションだと思います。法律は他の文章よりも構造化されているはずなのと、価値が高い文章なので。今はまだコストが高いので、こういうバリューが高いところと、クローズな情報を持っているところのコラボレーションはすごく重要です。

アプリ開発側とLLM開発側の思惑

元榮:法律以外でも、医療や税務、それ以外の業界でも、同じようなコンセプトでイノベーションの余地があるということだと思いますけど。気になるところとして、「GPT-4」を使っているとお金がすごくかかるわけですね。

たぶんご覧になってる方も、「もうちょっと安くならないかな」と思っていたりすると思うんですけど、お二方で何かご存じのことがあれば。

伊藤:効率良くなるとかナローになるとか、いろんな手段で安くはなると思うんですよ。やっぱりコストが下がらないと、本当にアクセシビリティにならないと思うんです。

もう1つ、今のLLMの構造は、中央でデータの解析をやらなきゃいけないんだけど、もうちょっとCPU効率がいいAIと、それをサーブするシステムが出ると、もっと携帯とかエッジ(末端)でできるようになってくるかもしれない。

そうするとオープンソース、自分のコンピュータでできるので、APIに払うという構造じゃなくなる可能性もあると思います。

元榮:なるほど。そして、そのLLMに関しても、今「GPT」になっていますけど、その時に一番使いやすい、使い勝手のいいものを利活用する時代になるという話も聞いたんですけど。松尾さん、いかがですか?

松尾:アプリケーション作る側は、LLMを変えられるようにしたいと。ただ、LLMを作る側は変えさせないようにしたいというのがあるので、そこらへんがどうなっていくかは注視する必要があります。

LLMの能力と、アプリケーションのタスクの性能とかが、どういうふうにひもづいているかというのも、まだあまり明らかじゃないので。そこらへんもいろんなサービスを作っていく中でだんだんわかってくることじゃないかと。

あと伊藤さんがおっしったようにLLMだけじゃなく、いろんなシステムを組み合わせて、アプリケーションを組み上げていくかたちになるので、そこらへんの接続の仕方とハイブリッドの仕方もすごく重要になってくると思います。