OpenAIとソフトバンクグループ、Arm、ソフトバンク合同で、企業用最先端AI「クリスタル・インテリジェンス(Cristal intaelligence)」に関する発表イベントが2025年2月3日に行われました。そのなかでソフトバンクグループ会長・孫正義氏がOpenAIのサム・アルトマン氏と対談。加速度的に進化するAIはどこに行き着くのか? 2人が議論するなかで出てきたのは、AIエージェントの次のフェーズである「イノベーター」でした。
この2、3年でAIの「長期記憶」は可能になる
孫正義氏(以下、孫):※1それでは、「クリスタル(クリスタル・インテリジェンス)」を今日発表したわけですが、いろんな2,500システムのソースコードを読み込ませます。それを我々のグループ会社だけでやるんですが、さまざまなソースコード、さまざまなコードのラインがあります。それを読み込ませようとすると、計算能力が本当に必要になりますよね。

ただ、あなたは自信を持っているんですね。日本には容量がある。30年分のソースコードを読み込む。あなたのモデルのために読み込ませる自信を持っていますか?
サム・アルトマン氏(以下、アルトマン):はい、自信を持ってそれができると思っていますよ。
孫:すばらしいですね。大丈夫だって。
アルトマン:何て言ったんですか?
孫:「すごいね」って今、みんなに言っていたんです。いとも簡単に言ってくれました。「やれるよ」と。
アルトマン:あなたもそうでしょう。
孫:ソースコードを読み込ませるのみならず、リアルタイムでミーティングに参加できるとか……長期記憶はいつやってくると思いますか?
アルトマン:この2、3年だと思いますね。もしかしたらもっと早いかもしれません。このモデルは、やはり長期的な記憶が非常に重要になってきます。AIがすべての会社の歴史すべてを理解することは、非常に大きなステップになると思います。
孫:私の特許ですね。長期記憶というコンセプトを持った特許ですが、顔の表情や声の調子、顔の表情を見て話を今しているわけですが、その会話をすべてテキストに変換する。
そして、声のトーンとか顔の表情を理解し、そして感情マップというものを……250種類ぐらいの感情があります。そのマッピングをしてインデックスをつけて、それぞれのインデックスは、例えば恐れや怒りや疑惑や、いろんな250種類ぐらいの言葉で感情を示しています。
それぞれの感情ですが、どれほど怒っているか。1から10で言うとどのレベルまで怒っているか、すごく怒っているのか、それともすごく疑惑に思っているのか。10なのか3なのか。その感情の強度を、250種類の感情を分析して、その感情の強度を分析しました。そして数字のインデックスにしたんです。
もうすぐ感情を持つAIが誕生する
孫:テキストや文字は、3つの数字のインデックスになりますので、それをすべて圧縮をして、会話を圧縮をして、非常に感情が非常に強い、すごく怒っている、すごく混乱している。ということであれば、ビデオ、画像、映像なども含めて、すべてを取り込み、長期的な記憶に蓄積していきます。
「おはよう」「おやすみ」、それから通勤、車とか信号とか、一瞬一瞬見ても、その後すぐ忘れてしまいますよね。すぐに忘れないと容量がいっぱいになってしまいます。
すべての重要ではないものを圧縮してしまうわけですが、一方で1つだけすごく感情の強さがあるもの、それがまさに逆にあんまり圧縮しすぎないでマルチモーダルな音声、画像、映像のかたちで格納しておく。
例えば3歳の子どもがすごく誕生日で喜んでいたとしたら、家族としては記憶として残しておきたいと思うんですね。それが長期的な記憶です。キーとなるのが、まさに驚きのレベル、感情のレベル、それをインデックス化する。これがキーとなります。
人のコミュニケーションは感情ですよね。文字ではありません。「あなたが好き」「あなたが好きだよ!」「いや、あなた、好きかなぁ?」、まったく違う話になりますよね。なので、声のトーンであったり、顔の表情であったり、そしてインデックスをつけると、それがまさに長期記憶の圧縮版になるわけです。
その文脈やコンテクストが非常に有益になっていきます。次の会話、次の対話、交渉に有益になっていきます。交渉するためにはやはり対面の感情を読まなければいけません。そうしないと失敗してしまいます。そういった感情のトリガーを持った長期記憶。それがまさに10年前に特許を申請したんです。間もなく使えそうですよね。
アルトマン:はい、すぐ使えると思いますよ。よくわかりませんが、感情の表現を持っているAI。テキストチャットのみならず感情を理解する。アバターや映像を見て感情がわかれば、まさに新しいものとして開発したいし、私はすごくエキサイティングに思っています。
AIがリアルタイムでレスポンスしてくれる未来
孫:ジョニー(ジョナサン・アイブ氏、Appleの元CDO、最高デザイン責任者)がターミナルデバイスを作ってくれそうですよね。私もすごくそれを見たいと思っています。
もしすべてのこれらのデータがあり、長期記憶などもあれば、いろんな大きなキャパシティもあり、かつレイテンシーも非常に重要になってきますよね。
コールセンター、カスタマーケア、これと同じことだと思います。すぐに即座に返答、返信をしなければいけない。ここについてはどうですか? 例えば日本で、これだけ多くの法人企業さまにミッションクリティカル(業務遂行に必要不可欠な要素)があります。
アルトマン:以前そこを心配していたこともあったんですが、もし我々のボイスモードを使っていただいても、本当の人間としゃべっているようなかたちですよね。それぐらい早い。ですからこの問題も十分解決できると思います。
孫:ほんの数ヶ月前は……でも、昨晩でもそうですが、すぐに返事がありますよね。「o3-mini」は、本当に「WOW!」という感じで早い返信が返ってくると。レイテンシーが例えば100ミリ秒ですかね?
アルトマン:そのような感じですね。なので遅延はほとんどない。
孫:100から200ミリ秒と。人間だとだいたい200ミリ秒ぐらいの遅延、遅れ。100から200ミリ秒となると、ほとんど人間とやり取りしているのと同じぐらいという感じだと思います。
それでかつ途中で介入できる。人間も途中で割り込むことができますよね。それと同じで、こちらもo3-miniは割り込むことができると。例えばモデルがアメリカでトレーニングされ、日本でStargateジャパンというかたち、またはセンターのようなかたちかと思いますが、そこですべてのリアルタイムのレスポンスをする自信があると。
アルトマン:そうですね。おそらくモデルのレイテンシーの問題もありますので、これは使う方の近くにあるほうがいいと思います。アメリカでトレーニングはしますが、モデルもアメリカで稼働することはできるかもしれません。ユースケースはやはり、それぞれエッジに近いところにある必要があるかとは思います。
AIを企業の労働力として統合できるか
孫:例えばナショナルセキュリティなど問題がなければアメリカでできる。ナショナルセキュリティなど安全保障。それから個人情報の問題などがありますのでローカルなほうがいいということですね。
アルトマン:そうですね、そのモデルを世界中で展開をしていこうと思っています。
孫:1,000名のセールスエンジニアを、この新しいジョイントベンチャーに充てることになりますが、こういった人たちは、実際導入や設定などそれぞれのシステムで対応していき、エージェントをそれぞれのタスクで立ち上げていくことになるわけですが、このエージェントについて説明をしてもらえますか?
シングルタスク、1つの仕事をやるエージェントなのか、それとも非常に洗練されたエージェントなのか?
アルトマン:ジェネリックエージェントというものがありまして、これはコンシューマーの方が使っていただけるものです。これはDeep Researchで先ほどデモを見ていただいたようなかたちですが、会社にとってそれぞれ独自のものとしてエージェント……例えばより前後の文脈を理解した、従業員のようなかたちのエージェントが欲しいという会社もあるかもしれません。
それであればすべてのシステムに接続する必要がありますし、すべての情報、コーディングを理解をし、会社の動き方についても理解をする必要があると思います。それはカスタマイズということでそれぞれの会社ごとに必要になってくると思いますが。
これ、例えばどなたかが作って、それをシステムに統合するとしますと。ソフトバンク、それからそれ以外の競合他社がいると。そうするとソフトバンクのほうがより大きな仕事ができる。
AIを自分たちの労働力と統合させていくと、Webを閲覧するだけじゃない、コーディングをするだけじゃなく、完全に会社に統合させることができれば非常に強力になると思います。
孫:例えばベストツール、最善のツールがある会社とない会社では大きく違う。電気がある国と電気のない国ぐらい違うんじゃないかとも言えると思います。または自動車がある国と自転車しかない国ぐらいの違いが出てくると思います。
アルトマン:そうですよね。それぐらいの現実感だと思います。
悪用すれば人類にとって悪い影響がある
アルトマン:私は刀などの古代の美術に非常に関心があります。以前、刀を使っていた頃の時代は、刃だけではなく、実際に鋼、刀につける鞘、それから木や鋼の持ち手などいろいろなかたちのものが必要だったと思います。これが技術で、実際に数十年の間にそれが時代とともに変わってきたということだと思います。
AIは技術としてそういった順番で変わってくるものだと思います。それを統合していかない、組み込んでいかない会社は、今後会社としての成長に対する問題が生まれてくると思います。
孫:会社だけではなく直近の例として、DeepSeekが出てきておりますが、非常に人間のセキュリティを守ることについては力を払ってきた、注意を払ってきた。そして危険なアウトプット、出力については、間違ったかたちで答えないようにすごく注意を払ってきたと。そこは大きな意思決定に対してリスクを伴うということで注意を払っていらっしゃったと思います。
技術、それから出力、アウトプットは99パーセント近いのかなと思いますが、実際に人間の安全性、人類を守るということ、それから国家安全保障を守るということ。最後の1〜2パーセントで、ファインチューニングをして多くの努力を払う必要がありますよね?
アルトマン:はい。そのとおりで、社会でどこが境界線かはわからないかもしれませんが、我々はここを非常に気にしておりまして、そこにかなり努力をしていると。それでお客さまたちがそれを喜んで使っていただけるということだと思います。
孫:政治的な話にあまり踏み込みたくないんですが、国によっては非常に危険な状況が起き得る、間違った使い方をすると危険な状況になり得る国もあるかと思います。場合によっては非常に人類にとってもよろしくない結末を招きかねないです。戦争などもあり得る。
アルトマン:そうですね、全体的にはそうだと私も思います。
孫:そういったところに非常に注意を払っていらっしゃると理解しています。
2025年がエージェントの年になる
孫:「このエージェント、それからクリスタル、AIと、これは人によってはコストセービング、つまりコストを節減するものなのか、それとも人の仕事を奪ってしまうものなのか?」と言うような方もいらっしゃいますが、これはいろんな人が、サムにもいろんな質問があると思いますが、どうですか?
アルトマン:お金を節約できると思います。そこが問題ではなくて、どれだけを達成できるか、どれだけできることが増えるかだと思います。
もちろん人がやりたいことができるような時間を与えるということがすばらしいと思いますし、また、いろんなことを心配している。「これはどういう意味なんだ? これはどうなるのか? 仕事はなくなっちゃうのか?」と言うような方もいらっしゃると思います。それはそれで1つあると思います。それに対して、人間がより高い達成を行っていくことも必要だと思います。
AIはそれをさらに効率的にできるようにするということが、人類にもたらされることだと思いますし、また私が一番個人的に楽しみにしているのは、こういったシステムによって新しい知識を我々が、これまでわからなかった、自分では導き出せなかった知識を出してくれる。
科学的な見識も大きく広がると思いますし、これが、長年かかっていたものが1年ぐらいで科学的な見識が増えることもあり得ると思います。
これは人生、または生活の質にも大きく影響があると思いますし、これは以前まったくできなかったということができる、その時まではまったくそれができなかったレベルであったのが今はできるようになると。
孫:これが5つのレベルのAGIの改善・改良だと思います。3つ目がエージェント。これは2025年が始まる年ということで、エージェントの年と言えると思います。
アルトマン:先週や今日(のレベル)と言えると思いますけれども。
孫:まさに2025年がエージェントの年と言えると思います。
エージェントの次なるフェーズは「イノベーター」
孫:次のレベルが、イノベーターとおっしゃいましたね。このイノベーターについても説明してもらえますか? どういうものなんでしょうか?
アルトマン:今日現在では、AIシステムは既存の情報をまとめること、統合すること、結論を導き出すことは非常に得意としているんですが、新しい科学的な見地、または認識、認知をすることはできない。それが次のレベルだと思っています。それがイノベーターと呼んでいるレベルです。

これは社会に貢献できることだと思います。もちろんエージェントを使っていくわけですが、次にその部分に向かって作業を進めていきたいと思っています。
孫:ただ、人によっては、AIには限界があるという意見もあります。「人間が教えなきゃいけないんだから、人間より賢くなることなんてあるのか? そこが限界じゃないか?」と言う人もいます。
でもイノベーターは革新をする、発明をするわけですよね。今までなかったものを作っていくわけですね。もうちょっと説明してもらえますか? イノベーターがどうやって物をイノベート、つまり発見をしていくのか。その探究のメカニズムを教えてください。
アルトマン:たぶん、人のメカニズムと似ていると思います。例えば問題の解決をしようとした時に、まずはいろんなアイデアから始まりますね。前の知識と結びつけて、「いや、これはうまくいかない」「いや、これはおもしろいな」、さらにうまくいきそうなものを調査してみる。
「これ、いきそうだな。だったら、こうやってこうやってやったらいいんじゃないか? これ良さそうだな、この方向で行こう」と人間も考えると思うんですよ。
なので、人間の創造性のプロセスは自分では気づいていないかもしれませんが、そんな感じだと思います。何度も何度も小さな既存のものを、変えて良さそうなものに進んでいくと。それがAIでできるようになると考えています。
数十億回のトライ・アンド・エラーで進化していく
孫:リーズニングが最初のステップですね。つまり3ステップ、10ステップ、100ステップというリーズニングの過程を経て、人間は革新をする時に、あなたが言ったようにいろんなものをトライしてみます。いろんな角度からトライをしていきますよね。つまり、探究をするというコンセプトです。
この1年で8,000件以上の特許を申請しました。私の右脳が違う考え方をする。違うかたちで考えるというメカニズムがイノベーションの鍵じゃないかと思いますし、このAIエージェント的なリーズニングをすることによって、さまざまなトライをしようとする。それがまさにイノベーターの鍵じゃないでしょうか。
数十億回というトライ・アンド・エラーをする。そして正しいソリューションに届くまで何度も何度も繰り返す。それがイノベーターのメカニズムなわけですね?
アルトマン:はい、そうです。
孫:そうじゃないかなと思ったんですが、よくわかりました。
アルトマン:なるべく早くしたいと思っています。
孫:あんまり私も言いすぎないほうがいいのかもしれませんね。もしかしたらみなさんが開発していることの秘密をあんまり打ち明けないほうがいいのかもしれませんが、5段階のレベル、それがオーガナイゼーション、エージェント同士で共同で作業するんですね。
アルトマン:先ほど言いましたが、多くのエージェント、多くのイノベーターが一緒に仕事をする。考えてみてください。お互いのアイデア、お互いの専門知識を寄せ集めて仕事すると、仮想的な会社を考えると非常にイメージがつきやすいと思うんですが、お互いに仕事をし合うことは非常にパワフルだと思います。
孫:クリスタルでは、ソフトバンクの中でも数十億個というエージェントを作ろうと考えています。
LINEで100万人のお客さま、そして4,000万人のモバイルのお客さま、PayPayのお客さまは7,000万人以上いらっしゃいます。それぞれのアカウント、それぞれのお客さま、機能、例えば100のファンクション、機能があったら、それぞれをエージェントに割り振ってシンプルなタスクをやらせる。
1つのエージェントですごく洗練されたタスクを、たくさんやらせるのではなくて、シンプルなタスクを多くのエージェントにやらせる。それが数十億個というエージェントのイメージなんです。それがクリスタルの中にいると。そういう多数のエージェントがいるというイメージです。
ただ、キャパ的には、各エージェントはシンプルなタスクで統合されていますので、容量はあんまり心配ないですよね? そういうことにコンピューターは長けているはずです。
アルトマン:いろいろ学んでいくことはあると思いますが、方向性ではそうだと思います。何とかやり繰りできていくと思います。
孫:数十億個というエージェントがクリスタルの中にいて、社内の事例だけでもそれぐらい使えるというイメージを持っています。その体験が完璧になったら、我々がエバンジェリストとしてお客さまに展開していく。
「こういうふうに社内で効率化しましたよ。どうぞ使ってみてください」と社外に展開できるイメージを持っています。なのでそういう方向性には同感ですか?
アルトマン:はい、そういう方向で行きましょう。
孫:一緒にやりましょう。
※1 英語での対談の同時通訳を書き起こしたものです。内容および解釈については英語原⽂が優先されます。英語動画