「ChatGPT」の登場とその学習方法

松尾豊氏:(スライドを示して)こういう大規模化の競争が起こっている真っ只中の、2022年11月30日に「ChatGPT」が公開され、全世界で話題になりました。

GPT-3、あるいはその後継のGPT-3.5をベースにしているので、2020年の夏に研究者らの間で、「これはすごい」となったのと同じことが、より一般の人の間で起こったというわけです。ここに1つだけ例が出ていますが、非常に的確な答えを出してくれます。

(スライドを示して)これも有名ですが、史上最速で1億ユーザーに到達したということで、今も非常にユーザー数が伸びていて、特に日本は、このユーザー数が人口に比べて非常に多いらしいです。

(スライドを示して)ChatGPTは、GPT-3、あるいは3.5をベースにしているのですが、対話用のガワを被せています。

そのガワは何かというと、Step 1、2、3から成っています。ざっくり言うと、教師あり学習プラス強化学習です。これもヒューマンフィードバックに基づく強化学習で、RLHF(Reinforcement Learning from Human Feedback)と言われる場合もありますが、こういう仕組みが入っています。

Step 1の教師あり学習というのは、大規模言語モデル、事前学習したようなものを、クエスチョンとアンサーのペアに対して教師あり学習をします。こういうクエスチョンに対しては、こういうアンサーが出てくるべきだという正解データを先に作って、それで教師あり学習をやるということです。ファインチューニングとしては普通のプロセスです。

Step 2で、そういうふうに作ったものを実際に人間と対話させて、○×をつけます。きちんとした回答をすると○、そうじゃないと×、あるいは誹謗中傷をしちゃうと×、失礼なことや攻撃的なことを言うと×、というふうにして、○×を人間がつけます。

Step 3の強化学習は、報酬を最大化するような行動の系列を見つけるという枠組みなので、人間がつけた○×を参考にしながら、○がたくさんもらえるような行動の系列を出力できるようなことを学習していきます。なので、ChatGPTは人間の○×を基に、○をたくさんもらおうとするわけです。そういうモデルになっています。

大規模言語モデルは、ポテンシャルが非常に高い

(スライドを示して)このガワが強化学習の部分が非常に重要で、今までの対話型AIというのは、出すとすぐに炎上するということが起こっていました。

やはりユーザーが遊んでしまうので、変なことを言わせようと工夫をいっぱいしてしまいます。そうすると、口車に乗ってしまって、AIが変なことを言ってしまう。すると、そこだけ切り出されて、ネットに晒されて炎上することが多かったわけです。

ところがChatGPTは、今のようなことをやっているので、変なことを言わない、非常に言いにくいです。それがゆえに、多くの人に使ってもらえるようになりました。

(スライドを示して)この使われ方は広がっているので、くどくど説明する必要はないのですが、文章の添削や翻訳ができますし、ブレストもできますし、あるいはクエスチョンの自動生成もできますし、コードの生成もできます。

コーディングがどこまでできるかというのは、今後けっこう重要になってくる論点だと思いますが、相当なところまでできそうだということですね。

(スライドを示して)このChatGPTなどの大規模言語モデルは、非常にポテンシャルが大きいと思っていて、わかりやすいところだけで言っても、検索がなくなる可能性が高いという、中長期的には検索は変わっていくんじゃないかと思われます。

それから、「Office」の製品、Word、Excel、パワポなど。このパワポも今日に合わせて私が修正したわけですが、そういった作業がなくなります。「こういうふうに直して」とか「ここの資料をマージしておいて」とか言うと、やってくれるように変わってくるんじゃないかと(思います)。

マイクロソフトの「Copilot」など、実際今出ていますが、今後はこういう仕事の仕方に変わっていくんじゃないかと(思います)。

ほとんどすべてのホワイトカラーの仕事に影響がある

それから、目的に特化したChatGPTということで、今のChatGPTは汎用に使えるように、一般的に使われるように、攻撃的な会話、偏った意見、予想、予測はしないと強化学習で訓練されています。

逆にそこの部分を押さえると、目的に特化した学習ができるので、法律や会計や医学的な見地などから正しいコメントをするとか、相手を励ましたりなぐさめたり、複数の人の希望を聞き出して、うまく妥協点を調整することができるようになります。

特に、目的に特化するというのは、今の強化学習のところでもできますし、もう少しファインチューニングのところでやるのもできますし、もともとの大規模言語モデルのところからデータを入れ直して再学習もできるわけですが、いろいろなやり方で目的に特化させていけます。

そう考えると、ホワイトカラーの仕事のほとんどすべてに影響があると、私は2023年2月の時点で書いていました。

(スライドを示して)実際に、3月にはOpenAIとペンシルバニア大学の論文が出ています。『GPTs are GPTs』という論文で、「GPTは、General Purpose Technologyである」と(述べられています)。要するに、インターネットやトランジスタ、エンジン、電気などに匹敵する非常に大きな、社会を変えるような技術であるという論文です。

実際の調査によると、米国の労働者の80パーセントに影響があるだろうと予測されていて、19パーセントの労働者については、半分以上のタスクで影響があるんじゃないかとも言われています。

特に、高賃金の職業、参入障壁の高い業界ほど影響が大きいとされていて、例えば金融や出版や保険といった業界にとっては非常に影響が大きいだろうとされています。

ChatGPTは“社会現象”である

(スライドを示して)今回のタイトルにもありますが、私はChatGPTをある種の社会現象だと思っています。なぜかというと、大規模言語モデルの技術は今までずっと蓄積されてきたからです。

2017年にトランスフォーマーが発明されて、それ以降、いろいろなかたちで技術が進展し、より大規模にすればいいというのが2020年頃にわかって、着々と大規模化が進んできていたところに、多くの人が使っても支障がない、炎上しないようなガワが被せられたということです。

ChatGPTは、OpenAIの人もびっくりしているわけですが、意図せずここまで一気にはやりました。

これは、それぞれの人が使うことによって、新しい使い方が創発していったということだと思っていて、新しい使い方に関しては研究者もびっくりしている状況です。

要するに、使い方の発見のプロセスに全世界の人が巻き込まれたということです。おもしろがって使っているうちに、こんなこともできる、あんなこともできると、この数ヶ月に、みなさん全員が一緒になって体験してしまったわけです。

だから、私は社会現象だと言っています。技術だけの話であればここまではやっていませんが、創発のプロセスに自分も含め、多くの人が巻き込まれたことにより、多くの人が「未来が変わる」と確信したわけです。多くの人が「未来が変わる」と思うと、実際に変わるということなんだと思っていて、人もお金もそういう方向に流れていくわけですね。そのため、実際にそういう未来が来るというモードにもう入ってしまいました。

ですから、もう元には戻れない。こういう未来に向かって社会全体が進んでいくんだということだと思っています。

いろいろ、現象としておもしろいところもあります。パラメーター数がなぜ大きいほうがいいのかというのも、データを覚えていて、必要な程度に汎化するということが起こっているんじゃないかということ。

それから、大規模言語モデルのところは次の単語を予測しているだけですが、それによって数学の概念を理解していたり、なにか空間的な認知があったり、あるいは心の理論のようなものまで学習されています。

それが、“なりきる”というロールプレイによって発揮することもできて、非常に興味深い、新しい現象が、たくさん起こっているんだなと思っています。

(次回へつづく)