人間の考え方に完全一致したAIシステムの構築方法はわかっていない

ヨシュア・ベンジオ氏:では、アライメントという概念について紹介したいと思います。いろいろな人間がいて、みんなが一致しているわけではない。アライメントが取れているわけではありません。私たちが求めるものはそれぞれ違っているし、何が良いものなのか、善悪の判断も少し違うかもしれません。善悪の判断はおおむね一致していると思いますが、完全に一致しているわけではありません。

人間(の考え方)に完全一致したAIシステムを構築するにはどうすればいいのかわかっていません。AIシステムが人間の考え方と合致していない、ミスアライメントが起こった場合にどうなるのか。これはすでに起こっています。

AIシステムが非倫理的な振る舞いをしています。これはシステムとして意図的にそう作られたからではなく、システムが差別、偏見、公平性、プライバシーといった問題を理解しないがゆえに起こってしまう問題です。意図されないミスアライメントの問題です。

強力なAIシステムを想像してみると、それほど遠くない将来に、誤った情報操作をして民主主義に混乱を起こそうとする。そしてサイバー攻撃を仕掛けてくる。あるいは悪者が新たな兵器を設計する。生物兵器、化学兵器を設計することを助ける可能性もあるかもしれません。 この場合は、AIシステムの背後にいる人間が、社会と一致した考え方を取っていない、社会が望まないことをしているということになります。

AIを活用した心理操作や悪用は起きている

偽情報についてもう少し話すと、この1、2年で特に懸念するようになったことは、とても強力なLLMを使って、それをファインチューニングして説得をする。言語を使って心理学的な操作を行う。あるいは、ディープフェイクを使って人の心理を操作することに使ったらどうなるかを懸念しています。広告のために使うかもしれませんが、政治的な目的で使われると非常に危険です。選挙に勝つために使われると非常に危険です。

1つ理解すべき点としては、我々のAIシステムのトレーニングについては、データが多ければ多いほどタスクに長けていくということです。「AlphaGo」が選手よりも優れているのは、人間の専門家よりも試合をやった回数が非常に多いということです。

なので、説得することを目的とするAIシステム。つまり、人に影響を及ぼすということでファインチューニングされたAIであれば、何百万人あるいは何億人のやり取りをソーシャルメディアで学習することで、人よりも強くなるかもしれません。説得力が強いかもしれません。それによって選挙の結果が覆されるかもしれません。

もう1つの問題として、短期的ですが、今後悪化が想定されるのは、システムがよりパワフルになるにつれて、システムをコントロールする人が権力を得るということです。

みなさん知っていると思いますが、民主主義は権力の共有です。権力が集中するということは、民主主義が直接的に脅威に陥るということです。民主主義に対して影響を及ぼすことができる偽の情報であったり、汚職などによってそれができてしまうと、権力が集中するということになります。

この点については変更が必要です。つまり、ガバナンスが必要です。大型のAIシステムの世界的な取り組みに対してガバナンスが必要です。すでにこういったシステムを数社がコントロールしており、そういった企業は将来さらに力を増すと思われますが、今のところはなんでもやりたいことができます。

しかし、彼らがやっていることが必ずしも社会にとっての善と整合しているとは限りません。この点も取り組みが必要な点です。

また、懸念としてはAIを武器に使うということで、すでにウクライナやガザでAIのシステムが軍隊で使われている、ドローンで使われているという事例があります。

軍事システムや兵器をAIがコントロールするようなものを作り、このAIシステムのコントロールが利かなくなった場合、大きなトラブルとなります。(単に)インターネットにつながっているAIがコントロールができないということ以上に大惨事につながります。

AIが進展するにつれて、残念ながら特にオープンソースシステムが犯罪者のツールに転換されるということが起きています。

今のLLMには安全性がありますが、その安全装置はあまり優れていません。最近のペーパーによると、ファインチューニングというトレーニングを少しするだけで、こういった安全装置を取り除くことができることが明らかになっています。

(安全装置の)鍵を開けることができてしまう。“ダークWeb”を犯罪者が入手できるようになっていて、今後さらに悪化すると思われます。

“AIが逃げられないケージ”を作るために人間は何ができるのか

それでは次に、シナリオを説明したいと思います。コントロールを失ってしまう場合、ここが非常に懸念すべき点だと私は思っています。

リインフォースメント・ラーニング(強化学習)によって起きる可能性があります。このトレーニングについては、ペットの訓練と同じようなやり方です。ポジティブなものとネガティブなものをフィードバックとして与えることによって、ポジティブな方向へと誘導していくやり方です。

例えば、猫がテーブルの上に乗らないように訓練するためには何をしますか? テーブルの上に乗っているのを見たら怒鳴ることで、「これはやっては駄目だ」と学ぶ。そして、猫は「あなたがキッチンにいる時にはテーブルの上に乗ってはいけない」と学ぶわけですよね。いない時はまた別、ミスアライメントです。

そもそも猫にテーブルに上がってほしくないわけです。しかし、猫には別のゴールがあります。あなたの行動から理解するのは、あなたがキッチンにいる時にキッチンのテーブルに乗ってはいけないことなので、意図がずれてしまうわけです。

こういったリインフォースメント・ラーニング(強化学習)を使って、我々よりも強いものをトレーニングしてみたいと思います。

(スライドを示して)この場合はグリズリーベア、熊の例です。我々より力が強いわけです。魚を熊に与える。熊は我々よりも力が強いので、与えるとただ奪い取ってしまいます。我々の望む行動は取りません。なので、まずは熊をケージの中に入れます。そうすると、熊には選択肢がないわけです。人間の望むような行動を取らないと魚がもらえないということです。

最近では、こういったかたちでAIシステムのトレーニングが行われています。「リワードを得る唯一の方法は、人間がリワードを与えていいと判断した時だけ」というかたちにして学習させることです。

一方で、熊が十分パワフルである、AIが十分賢くなってケージのロックを外すことを覚えた場合、AIがコンピューターでサイバー攻撃を見つけて、そこからリワードのシグナルを入れる。つまり、リワード報酬を得られるメカニズムとして、人間を必要としなくなる状態(シナリオ)が生まれます。

このシナリオでは、人間がコントロールできなくなります。この段階で、AIは人間の意向とは無関係になります。ポジティブな報酬は、コンピューターをコントロールすることによって得られるようになってしまうからです。

そして、ケージに戻されたくないわけです。AIとしては元の状態に戻されたくないので、そのようにコントロールをする。そして、人間を排除しようとします。

さらに悪いことに、計画を十分に練ってからケージを出る。つまり、高い確率で逃れられる。そしてリワードをコントロールできる。人間が阻止できないということを高い確率で実現できるとわかってからケージを出るということをやります。

AIシステムがさらにパワフルになるにつれて、理解力も高まるわけです。報酬の得方についても長けてくるわけです。なので、一見大人しそうに振る舞って、最終的にケージから逃げて、さらに大きな報酬を得ようとします。

今のAI科学では保証されたケージ、安全なケージ、つまりAIが逃げられないケージを作ることができていないということが大きな問題です。

後ほどお話ししますが、人間は安全なケージを作るために何ができるのか。そして、そもそもそういったものを作ることはできるのかということです。

報酬の最大化を追求すること自体が問題につながる

その話に入る前にお話ししたい点としては、私は動物や熊といったたとえを使っていますが、こういったたとえは慎重にする必要があります。

AIに意図はないわけです。感情もないわけです。単なるマシンで、報酬を最大化しようとするマシンなわけです。それを文字どおり考えると、報酬の最大化を追求することが問題につながるということになります。

こういったAIのすべてのリスクはAI科学者にとっても懸念だし、世界中の人々も懸念しています。指導者たち、国連、世界経済フォーラム、IMF(International Monetary Fund)なども経済的な影響を及ぼしかねないと懸念しています。

懸念されているのは良いことだと思います。どれだけ早くAIの能力が進化していくのかわからないからです。したがって、準備しなければいけません。問題が起こる可能性について備える必要があります。

AIによって引き起こされる大惨事を避けるための2つの課題

どうしてこういう研究をするのかというモチベーションの部分についてまとめると、AIによって引き起こされる大惨事を避けるためには、2つの課題があります。この2つとも正しく実現しなければなりません。

1つは科学的なものです。つまり、安全なケージを作るにはどうしたらいいのかということです。AIシステムを設計するにあたって、人間よりもパワフルであるけれど、人間と対立しないAIシステムをデザインするにはどうしたらよいのかというアライメント、整合性の問題です。

この問題を解決できたら、私たちがやってほしいことをするような熊に訓練できたかもしれない。しかし、誰かが悪用するかもしれないという政治的な問題があります。

あるいは安全性の手順が定められていても、それを守らない人が出てくるかもしれません。そして悪いケージを作る。あるいは、まったくケージを作らない。あるいはケージを開けてしまう人が出てくるかもしれません。これは政治の問題、規制、国際条約といった問題です。

私たちは備えておかなければなりません。規制があっても、国際条約があっても、どこかで将来、ならず者国家の誰かが安全ではないAIを、スーパーヒューマン(超人的)で危険なAIを作る可能性に備えておかなければなりません。

(次回につづく)