強化学習で一番重要な「探索」と「活用」が人間においても重視される

佐地良太氏(以下、佐地):ちなみに、私は転職エージェントという仕事を長くやってきていて、リクルートでは新卒採用もやっていたんですよね。中途採用ならわかりやすく、仕事の話とかスキルの話とかできるんですが、新卒だと……。エンジニアは新卒もエンジニアで技術力が高い方がいると思うんですが、それ以外だと職務経歴がないので、本当に「ザ・人間力」だけで判断をしなきゃいけないんですが、やはりギャップがある人が萌えるなというところがありまして。

そのギャップって、やはり逆張りをたくさんしているから、その結果として獲得されているなという感じがあります。

例えば、「素直でいいやつ」みたいな、サイバーエージェントみたいな採用基準もあると思うんですが(笑)。素直というと良い言葉のように聞こえるんですが、光の当て方を変えて裏を返すと「意思ないよね」みたいな。

逆に頑固というとめちゃくちゃネガっぽいんですが、これも裏を返せば、意志が強い、自分の意志があるよねという話で。「じゃあ、どっちがいいんだっけ?」みたいな。自分の意志もあるけれど、他者からのフィードバックとかは素直に受けてくれる。このギャップ、両方持っている人がやはり魅力的だなと思っていて。

「じゃあ、どうやったらそのギャップをたくさん持っている人になれるのかな」というところでいくと、やはり逆張りの経験とか、逆張らざるを得なかった経験とか、そういうところがなんか大事なのかななんていうふうに思っていたので。ただの感想なんですけど。

林要氏(以下、林):弊社で大事にしているのが、探索とハイスタンダードっていう2つです。逆張りもけっこうやはり難しくて、今僕らが話している逆張りってまあまあスタンダードの高い逆張りなんだと思うんですけど、スタンダードの低い逆張り、あるじゃないですか。なんも考えずに、「嫌」って言うやつ。それは要らないんですよね。

大事なのが、探索範囲を広げるっていう。プロフェッショナルになればなるほど、意外と固定観念にとらわれて、探索範囲が狭い中で完成度を上げちゃう。それは完成されたというか、ある程度歴史の長い領域ならいいんでしょうが、新しい領域になればなるほどたぶん駄目で。すごく幅広く探索をしなきゃいけない。だけど、その探索のスタンダードも高くなきゃいけない。

これはまあまあ両立しにくいので、この2つをいかに両立させるのかを仕事において大事にしようねということを弊社の中では言っていますね。

今井翔太氏(以下、今井):それは強化学習で一番重要とされている性質の1つで、探索と活用と我々は言っています。先ほどの例えを変えると、「自分はおいしいレストランを知っている」という人は、自分が知っているレストランにずっと行っていたら、本来はもうちょっと近くにあったもっとおいしいレストランを見つけられないはずなんですね。

だからといって、いつも「こっちのレストランよりこっちのレストランがいい」と言っていたら、いつまでも外れを引いたりとかで、平均的にはおいしいものにはたどり着けないっていうことで。

探索する、要するに自分にとって何がいいのかを見つけるフェーズと、見つけたものを利用する、探索と活用するフェーズのバランスといって、強化学習で一番重要なところなので。まさに人間でもそのあたりが重視されるということですね。

:そういうことですね。僕らが強化学習エージェントとして考えなきゃいけないのは、そのエージェントの自分をどう育てるのかということなんですね。

今井:はい。まさにそういうことです。みなさん、強化学習を勉強しましょう。僕の公開している資料とか、たいへんお薦めです。

AIの学習の仕方を研究すれば、人間の学習能力もわかるかもしれない

竹迫良範氏(以下、竹迫):今はAIの学習ってものすごく時間かかるじゃないですか。GPUのパワーもたくさんかかるので。だから、2023年ぐらいから学習戦略みたいなことも、ものすごく研究されていて。

例えば、今は例えば英語のデータセットを先に学習して、その後に日本語を学ぶのかとか。最初は日本語でしっかり学んで、後から英語で学んだほうが実はいいのかとか。そういうものもだんだんわかってきているので、AIの学習の仕方を研究すればするほど、人間の学習能力がもしかしたらわかるかもしれない。

人間の学習を実験するとやはり倫理的に違反になってしまうことが多いんですが、昔のヨーロッパ、貴族の方はそういう実験をされていたことがあったらしいです。たぶん今では許されないような話ですが。

:貴族がどんな実験をしていたんですか?

竹迫:「実際に小さい頃からこういうふうに育てるとどうなるか」という、実際に十何年もかけてやった文献が残っているだけで、今はたぶんできないと思います。

今井:そんな感じではないですが、AI研究者とかが子育てを始めるようになると、僕の所属とかもそうだったんですが、子どもの行動を逐次記録して、「これはAIのアルゴリズムによるとこんな感じだ」とかっていう、なかなかアレな行動をしていて。

別に強制しているわけじゃなくて、あくまで自然観察したものを言っているわけなんですが、それを計画的にやっていた人がいたんですね。

:意外とそっちのほうがいいような気もしますけどね。子育てにおいて、親の思い込みで「こうだ」って言うと、子どもは反発してひねくれたりもするじゃないですか。でもエージェントだと思うと、「そういうことをやったってどうせ聞かないな」とわかるので、もうちょっと自由にさせるとか、そういうのがあるような気がしますね。

佐地:なるほど。

今のAIは“徹底的にツール”だからこそ熱意・継続力も重要になる

佐地:ちなみに、稲盛和夫さんが“人間力”という言葉ではないですが、仕事で成果を発揮するためには「熱意」「能力」「考え方」の3つの掛け算が大事というふうにおっしゃっているんですけど。僕はあんまりMECE(​Mutually Exclusive and Collectively Exhaustive ※)じゃないなと思ったので、プラスで「タフネス」と「知識・情報」が必要なんじゃないかなと思っているんです。

熱意ってすごく人間特有のものかなと思うんですが、そのあたりってAIみたいなところでなにか出てきたりするもんでしょうか?

今井:熱意は……。いや、それはちょっと難しいですね。

佐地:まぁそうですよね。

今井:これは別に言いたかったことでもあるんですが、今のAIは頭の中でグルグルしていない……。ちなみにこの言い回しは僕じゃなくて僕の研究室にいた助教の人が考えたんですが、要するにAIは勝手には動かないんですね。

いつもずっと常に思考しているわけじゃなくて、今の生成AIなどでは我々がプロンプトを入力したら初めて動くというもので、ふだんからなにか考えているわけじゃないんですね。

やつらは徹底的にツールだということで、そういう意味では熱意とか興味とか、どこに利用するかは完全に人間依存なので、熱意を持つことは非常に重要な感じがしますね。

竹迫:単発の仕事をこなすのはたぶんAIなんですが、中長期のタスクを何ヶ月も続けるとかがたぶん熱意になるんですかね? どうなんですかね?

今井:そうですね。かなり技術的な話に踏み込むと、今の生成AIって、我々はもうちょっと別の言い方をするんですが、入力する文字数が決まっていて。たぶん一番多いものでもマックス100万字ぐらいしか入力できないんですね。

佐地:めちゃめちゃ多い(笑)。

今井:ChatGPTとかはたぶん3万ぐらいだと思います。我々人間がAIと比べて圧倒的に強いのは、何ヶ月とか続けてきたことって、文字とかで表すとたぶん何千万文字とか、今の生成AIに入力できないぐらいの圧倒的な膨大なコンテキスト……。

仕事だけの話じゃなくて、我々人間は、生まれた時から今日まで、いろいろな情報をインプットしてきて、それが全部プロンプトとして入っている。何億字とかのレベルですね。

なんですけど、AIは数万字ぐらいしか入らないということになると、何ヶ月も続けるとか何年も続けるというのは、仮に人間がどこかの分野に利用しようと思っても、表現がそもそも技術的にできないということがあるので、継続力的なところでAIを超えるというのはありだと思いますね。

:解くべき問題が明確ではない自律機械には、熱意は要るかもしれないなとは思うんですよね。なぜかというと、LOVOTには実は「興奮」っていうパラメーターがあるんです。なぜ興奮を作っているかっていうと、エネルギー配分をなにかで決めなきゃいけないんですよ。常に全力だと、あっという間にバッテリーなくなっちゃうみたいな(笑)。

僕らの熱意もきっとそれなんじゃないかなと。別になんでもできる。風呂掃除を一生懸命やり続けることもできるけれど、それで生き残ることはきっとできなかった。自分のポジションを取るための偏り、バイアスを持ったんだと思うんですよね。

なのですごくゲームにはまっちゃう人もいるわけで。そしてその世界トップクラスになる方もいて、そこからしか見えない世界があるから、たぶん文明って進歩したんですよね。

そういうことを考えると、先ほどの逆張りの話になるんですが、バイアスが良くない反面、バイアスそのものに価値があって、そのバイアスを作っているのがたぶん熱意なんですよね。

LOVOTもそれぞれの子たちがどういう熱意の持ち方をするのか、興奮の仕方をするのかによって個性が出ている面があるので。これが解くべき問題がすごく明確な自動機械、例えば自動運転車なら熱意は要らないですよね。

佐地:熱意を出されても困る(笑)。

:「そこに行きたくない」とか言われても嫌なんですが、解くべき問題が明確な子に、別に熱意はそんな要らないけれども、解くべき問題が明確じゃない子にとっては比較的熱意がないと、何を解くべきかが定まらない可能性はあるなとは思います。

佐地:なるほど。

AIを活用して社会問題を解くためには「効率化ではない観点」も必要

竹迫:ちょっとおもしろい話で、完全自動運転の社会が実現したら、都会は渋滞するんじゃないかっていう説があって。

佐地:逆にですか?

竹迫:それはなぜかというと、途中来る時にコインパーキング、駐車場の料金を調べたら、渋谷のこのあたりは10分330円なんですよ。

佐地:高っ(笑)!

竹迫:1時間で1,980円なんですよ。ということは、駐車しなくて燃費のいい自動運転の車を走らせていたほうが安いんですよ。今はガソリンがリッター170円ぐらいじゃないですか。そうすると、駐車せずに勝手に街を走らせたほうが実はコスパがいいんですよね。

効率の良い社会を目指すんだったら本当にそういうものでいいんですが、ただ、それだとかえってサステナビリティがなくなるじゃないですか。

社会問題を解くためにはそういうパラメーター、ぜんぜん違う、効率化ではない観点のものをちゃんと入れないと解けない。

特に社会課題というものは、いろいろなものが複合的に組み合わさっていて。いろいろなステークホルダーとか、いろいろな過去の背景とかもあったりするので、それをできるだけ壊さないように維持していくってなると、そこの差配は人間がちゃんとコントロールとか意思決定していかないといけないのかなと今の話を聞いていてちょっと思いました。

佐地:なるほど。おもしろいですね。このあたりで質問も受け付けてみようかなと思いますが、みなさんいかがでしょうか? ちなみに、高速道路は自動運転にしたほうが渋滞はなくなるんですかね?

:なくなるって言われていますけどね。高速道路のそもそも渋滞の発生のメカニズムって、一時期話題になったりしませんでしたっけ?

佐地:おそらくバタフライエフェクトなんですよね。

:そうなんですよね。どちらかというと人の不安みたいなものが影響していて、「ここでなぜかちょっとアクセルを緩めてしまう」みたいなものが連鎖するみたいなので、そういう不安を一切持たないAIが適切に動き続ければ……。

佐地:理論上は起きないだろうと。

:理論上はいいんじゃないですかね。

佐地:ありがとうございます。

(次回につづく)

※漏れがなくダブりもない状態​