PKSHAの設立と生成AIの進化

上野山勝也氏:ご紹介に預かりました、PKSHA Technologyという会社をやっています、上野山と申します。今日は何の話をしようかなと思っていたんですが、題名がちょっと変わっています。私は2012年に、ここから徒歩2分の東大のインキュベーション施設に会社を立ち上げました。

その当時は2012年だったんですが、いわゆるディープラーニングというものが生まれてきて、ニューラルネットワーク型のソフトウェアが生まれ始めました。それが巨大化してトランスフォーマーという機構を備えて、生成AIとして現れてきました。

始めなので、10年ぐらいこの領域を見ているという意味において、この生成AIというものをどう見ればいいのかという、入り口の全体感の話を前段でちょっとします。後半は、PKSHAという会社で社会実装装置をやっているので、そこの実装のお話を少しできればなと思っています。本日はよろしくお願いします。

PKSHAの理念と組織構造

自己紹介なんですが、PKSHAってそもそも何なの? というのを、外であまり話したことがないので、簡単に。そもそも前提として、今日の参加者はソフトウェアエンジニアの方が多いと思うんですが、我々、ソフトウェアエンジニアというのは、エンジニアと書くように社会のエンジンであるべきだと考えています。

ゆえに我々は、先端情報技術を社会に実装することに極めて強い執着をずっと持っています。2012年に、主に言語処理を軸足に会社を立ち上げました。この左ですが、なんで木の絵があるの? という感じなんですが、ここから徒歩5分ぐらいの「ファイヤーハウス」というハンバーガー屋さんがわかる方……。

東大の方だったらわかるかもしれないですが、その向かいに、高さ30メートルぐらいの巨木が立っていて、これは文京区のご神木と言われていて重要文化財になっています。これが我々の会社の創業したオフィスの窓から見えるんです。我々の会社の活動も、根っこの部分、幹の部分、その上から枝分かれして花が咲く部分と、この木が成長していくようなモデルになっております。

これはそれぞれレイヤー0、レイヤー1、レイヤー2という組織構造になっています。もともと、モチベーションとしてはディープラーニングとニューラルネットワーク型のモデルが、どのようにすれば社会価値に接続できるんだろうかという極めて素朴な好奇心から始まっています。

言語処理とか、私が今しゃべっている音声を処理する、いわゆる根っこの部分、あるいは画像とか、人が処理をするようなソフトウェア技術を、イメージで言うとレゴブロックのようにどんどん作っていく。そして、幹の部分でそれをいろいろな社会に実装していく。社内とか、あるいは消費者の方に届けていくということをやりながら、さらにそれをプロダクトとして社会に実装していくということをやっている会社です。

我々は、やはり先端技術をどうやったら社会の価値として実装できるのかということに強い興味があります。この生成AIというものも、極めて大きな変化だと思いますが、これがどうすれば本当に社会の価値に届くのか。2012年は、本当に研究室の一部の人しかディープラーニングというワードを使っていなかったのですが、今回「生成AI」というカンファレンスで、平日の朝早くからこんなに人が集まる。10年でこの業界はどんどん進化してきているなと思っています。

「未来のソフトウェアを形にしていこう」ということも後ほどお話できればなと思いますが、人とソフトウェアをともに進化させていくようなソフトウェアデザインを模索しています。基本的に我々がずっと思っているのは、全産業はソフトウェア産業化する。全ソフトウェアの産業化というのは、AI化するということだと思っています。

これは人によって賛否があるかもしれないですが、我々はそう信じています。生成AIはこれを加速させる流れに位置づく。これに国産のAIソフトウェア技術企業を創造していこうということです。

生成AIの捉え方

自己紹介はいったん置いておいて、生成AIをどう捉えるかというところが、今日の生成AIカンファレンスの入り口なので、我々が10年ぐらい見てきた中でこう捉えるのが重要なんじゃないかと思っていることをご紹介します。

あらためてですが、「ChatGPT」みたいなものがわかりやすく社会に届きました。「ChatGPT」は、InstagramやXのスピードをはるかに超える速度でユーザー数を伸ばしています。人間の長い歴史の中で人類史上最速で地球を覆っていった原因はいったい何なのか。

生成AIに興味を持たれたソフトウェア技術者の方は多いと思うんですが、「X」とかを見ていると、毎日新しいことが起きているように見え、どうやってキャッチアップしていったらいいのかが、ぜんぜんわからないということがあると思います。ここをどう捉えるかを前半にお伝えできればなと思います。

生成AIをどう捉えればいいか。点やブームではなくて、線や本質として捉えられないかということです。2024年、今、私たちはどこにいるのか? という問いになるんですが、ワールドモデルという概念がAIにあります。いわゆるAIエージェントの実装においては、外界や環境を抽象化して認識し、そのワールドモデルの下、環境がどのように変化するかを予測して、何かしらのアクションを起こすことを考えるわけです。

この問いが非常に重要で、生成AIを社会に実装するという、例えば我々の会社とか、これを作ろうとしているエンジニアの方。実はその人たちもこのAIエージェントとして捉えることができます。そう考える中で何が重要かというと、このワールドモデルをいかに脳内に立ち上げるかです。

つまり生成AIという点で見るのではなくて、今世界がどうなっているのか。この生成AIというのがコンピューティング進化の中で何を意味するのかという認識を脳内に立ち上げて実装していくのが極めて重要になってくる。

実装すればするほど、自分の企業活動とか自分の認知する自分の脳内とかがどんどんメタ認知されていくという意味で、これがソフトウェアエンジニアリングと隣にあるAIの領域のおもしろさなんじゃないかなと思っています。

バックエンドの進化もいろいろな説明がありますし、これはググると100通りぐらいの説明が出てくるんですが、俯瞰してみるとこうじゃないの? というのを捉えると、まずディープラーニングが出てきたぐらいのタイミングでソフトウェアの記述の方式が変わった。今までは人間が100パーセント記述していたものが、大きな枠組みを人間が記述して、そこにデータを流し込むことでパラメーターが調整されていき、複雑な関数が完成する。

つまり、今までは人間がソフトウェアを全部記述していましたが、データがソフトウェアを記述するということが起こり始める。同時にコンピューティングリソースの制約がある中で、このニューラルネットワークというモデルがどんどん巨大化していくということが起きている。ネットワークサイズが巨大化し、階層が増えて、その作り方・形を工夫し、学習の仕方を含めて工夫する。こういう試行錯誤が全世界的に起きていました。

そこで登場したのが「ChatGPT」であり、トランスフォーマーというモデルを持った超巨大なニューラルネットワークになるわけです。私は大規模言語モデルの話をしますが、今日の生成AIの機能は、こうやって見てみると必然であり、ニューラルネットワークは大きくなり、どんどん中が知能化していく。

今まで人間が全部演繹的にソフトウェアを記述していたので、その時のソフトウェアはインプットとアウトプットが1対1対応をするような処理だったんですが、今の大規模言語モデルは任意の言語に対して、多次元な出力を戻す。非常に汎化性能が上がってきていると思います。そしてこれはまだ途中であると捉えるのが非常に重要なんじゃないかと思います。

生成AI技術の進化

我々は社内で「AIエンジニアやソフトウェアエンジニアという言い方は、もう止めよう」という議論をしています。なぜなら10年後はそんな言葉は残っていないんじゃないかと(思うからです)。10年後のエンジニアに求められるものは、特定の技術ではなくて、きちんと価値を生む対象を観察して抽象化し、ソフトウェア制約まで落とし込んでいくという、極めてメタレベルのエンジニアリング能力になるはずです。

その中にはニューラルネットワークもあるし、そうじゃないものもあるし、さまざまなソフトウェアスタックの技術が埋まっている。我々はこれを非常におもしろい変化だと思っていますし、社会に与えられるインパクトが劇的に広がるタイミングに今いるんじゃないかと思っています。

ですが、やはりこの生成AIを実装していくには、いくつかの制約があります。見落とされがちな真実とスライドに書いているんですが、AIの研究って全部サイバー空間の中で語られているんです。つまりコスト制約、スピードはアレかもしれないですが、物理世界が持っているいろいろな制約条件にこれを落とし込んで具現化しないといけない。これが非常に重要になってくると思うんです。なので、ディープラーニングの頃と少し似ているなと思うところは、やはりあります。

ディープラーニングが出てきた時も「これはめちゃくちゃいろいろなことができるんじゃないか」「あらゆることができるんじゃないか」「すべての空間にカメラが付いて、鍵とか全部なくなるんじゃないか」。いろいろな議論が起きていたんですが、物理世界というのは、いろいろな制約条件を持っているわけですね。

今、生成AI産業全体を俯瞰して起きていることの1つは、そもそもこのまま使う人が増え続けると電力と半導体が根本的に足りないというような制約とか、どうすると本当に価値として届くんだろうかということです。ただ、これを翻って見てみると、工学部的な考え方をすることが極めておもしろい問題になっている。

「工学」というのは社会に実装するような科学的方法論ですね。なので生成AIの社会実装を含めて、我々は工学的に記述可能だし再現可能であると思っていて、先ほど申し上げた、生成AIを使うユーザーはサイバー空間ではなくて物理空間にいる人間であり、社会であり、日本であり、海外であるわけです。

なので、こういう環境や社会の中で、自らのワールドモデルを育てて、その中でいろいろなものをトライして実装していくという、自らが強化学習エージェントになるという捉え方が極めて重要だと思っています。

この生成AIで異分野融合の知の総格闘技というのが、さらにもう一段スタートしたことで、本日、こんな朝早くから生成AIカンファレンスというものがスタートしていて、2024年はそういうタイミングに立っているんじゃないかということが、まず俯瞰した捉え方になります。

(次回へつづく)