完全自動運転車のあるべき姿とは?
山本一成氏:ちょっと話が戻りますが、自動運転車はどうあるべきなんでしょう?
完全な自動運転車には、ハンドルがありません。ハンドルがない自家用車がどういう挙動を示すのか。社内で喩えられている話ですが、例えば、タクシーの運転手さんが専属のドライバーをしているのは、完全自動運転車になっているじゃないですか。
そんな感じで、例えば前のドアが完全に黒い壁で仕切られていて、声やタッチパネルで運転手らしき人に命令、あるいは指示を送ると、その結果として、我々はA地点からB地点に行けます。そうなった時に、その運転手が人だったのかAIだったのかの区別がつかないことこそが、完全自動運転車のあるべき姿じゃないかなと思っています。
ちなみにこれは、わかる人はわかるかもしれませんが、チューリングテストといいます。チューリングテストは、チャットで打ち込むとボットまたは人から返事が来て、区別がつかなかったならば、そのAIは人間レベルの知能があるだろうという話です。自動運転車もそういった、人あるいは人に準ずる知能を持っている必要があるのかなと思います。
でも、これはすごく大変なことで、AIは幅広くこの世界のことを理解しなきゃいけないんですよ。
例えば、「あっ、あっち行って」「あっちって何?」みたいな、よくわからない指示が人から飛んでくるわけですよね。「ええと、ちょっとトイレに行きたい」とか。なんなんですかね、この指示は。でも、こういった指示も人間が運転していたらありますし、実際にこういうことができるのは、乗用車の魅力的なんですね。
こういったレベル、あるいはこれに準ずるレベルが、我々が達成しなきゃいけない、あるいは本当の意味でハンドルがない車として達成しなきゃいけないレベル感だと思っています。
カメラベース、センサーベース テスラとウェイモで異なる設計思想
(スライドを示して)そういう話を考えると、この世界についてかなり理解があるAIを作る必要があると思っています。
ここは、けっこうフィロソフィーですが、今の自動運転はちょっと難しいところがあって、センサーをたくさんつけましょうというコンテキストが多いんですよね。
それはすごく素敵な話なんですが、ちょっと議論にのぼりにくい点としては、頭を良くしなきゃいけないというのがあります。
向かい合わせになってしまって、向かいの車が行くのか自分が行くのかという状況が生まれた時、ある種のネゴシエーションが発生します。こういったネゴシエーションの状況は、視力が良ければ解決できるわけではありません。
人間であれば、例えば相手の運転手の雰囲気、顔、あるいは車の微妙な挙動を見て判断しています。まさに、こういったことを解決しないと、なかなか(自動運転は)できないだろうなと思っています。
参考としてですが、私はテスラのModel 3を持っていて、この間洗車をしてきれいになりました。これは高速道路だとかなりレベルの高い自動運転ができますが、カメラとちょっとしたセンサーが入っているぐらいなんです。基本はカメラベースでやっています。
一方でウェイモ(Waymo)は、みなさんが馴染みのないセンサーをいろいろ積んでいて、このあたりはけっこう設計思想に差ができているかなと思います。
カメラを使ったディープラーニングはンピュータービジョンの中で一番進んでいる
(スライドを示して)このカメラについて、イーロン・マスクさんの話を「DeepL」にかけて翻訳しました。
なんかちょっと珍妙な言い方をしていますが、カメラだとたくさん情報が来るんですね。可視光はやはりなかなかいい情報の場所なんですよ。何が言いたいかというと、だいたいの生き物は可視光領域、あるいは可視光領域付近を使っています。だから、地球に生きる上で可視光はけっこう便利な情報で、こういったものを使うといいんじゃないかという話をしています。
逆に言うと、現状AIは、まだ可視光領域のセンサー、つまりカメラをもってしても、なかなか全部のデータを使い切れていないと思っています。
人間は基本的に目、あと少し耳と、三半規管も使っているのですが、基本的に可視光領域の情報を使って運転しているというのは間違いありません。人間のように頭がいい判断器があれば、可視光領域のセンサーを使うだけでも、相当できると思っています。
カメラを使ったディープラーニングは、当然ながらコンピュータービジョンの中では一番進んでいる領域です。この大きな進歩にTURINGは乗っかっていこうと思っています。
逆に言うと、今のディープラーニングは、4K、8Kのレゾリューションまでなかなか使い切れていないと思っています。このあたりも今後計算機が拡大していくと、きっと使い切れるようになるんじゃないかなと思っています。
TURINGが今取り組んでいること
では、どんなふうにやっていくか。TURINGは実際にすでに、公道上でできる開発をしています。といっても、まだ公道で走っているわけではなく、こんな感じでやっています。
(スライドを示して)今は、走行のアルバイトを雇って、車の上にカメラなど各種のセンサーや車載のデータを載せています。車載のデータは、ハンドルがこうであったとか、ウィンカーをどう出したかとかです。ウィンカーは人間の意思表示としてなかなかおもしろいので、ぜひ学習に欲しいデータだと思っています。
あるいは、その時の地図はどうだったのかとか、加速度計とか。これらも車のデータから取れなくもないんですが、GPSやいろいろなデータを取って、オフィスのNASに上げて、S3に上げて、「Sagemaker」で学習しています。AWSの話だからね、一応AWSの話をしておかないといけないんですよ(笑)。
話を戻して、Sagemaker上でどういうことをやっているかというと、まずは予想経路です。予想経路は、AIがハンドルをどう切るかに直結しますよね。
あるいは、マルチタスク。厳密にディープラーニングにおけるマルチタスクというかどうかはちょっとわかりませんが、先行車がどこにあるかとか、今の自分の速度を予想させたりとか、あと一番大事なのは白線で、その予想もやっています。白線の予想がけっこうおもしろいのですが、言い出すと終わりがないので、このくらいにしておきます。
(スライドを示して)今、データが増え続けていて困っています。2022年の目標として、500時間の走行データを取ろうと思っています。500時間というと、だいたい動画で圧縮したとしても30TBぐらいになりますね。すでに150時間ぐらいは撮れていて、10TBぐらいの情報になっています。
さらに2023年は、その100倍増を目標としていて、走行のアルバイトさん、あるいはタクシー会社さんと今話しています。
カメラも、今は正面だけなので、望遠・魚眼をつけたり、リアとサイドをつけて増やすという話があります。あとは実際に、これらを車の中にインプリメントしたかたちで走行させるとか、いろいろあるのですが、そうすると、たぶん10PBぐらいはいくんじゃないかという、雑な計算をしています。
これは、もうすでに学習がけっこう大変で、メタデータの付与や管理の問題もありますし、これだけのデータサイズがあると、「PyTorch」とSagemakerをうまく使って、並列分散学習をしたり、ディスクI/OやネットワークI/Oを高速化したりしなければなりません。
ほかにも、どういう時に走行したのか、運転手の話を聞いたり、機械学習を使ったことによって、例えば天気の情報をメタデータで付与したり、たぶんそういったMLのパイプラインを作らなきゃいけないなと思っています。難しいけれど、実際に自分たちで走行データを取ってやるのは、すごくおもしろいです。
ハードウェア、ソフトウェアの2つの軸から自動運転を実現していく
(スライドを示して)最後にハイヤリングの話をします。エンジニアとしてスケールの大きな課題に巡り会うことは、人生でそんなにないと思っていて、TURINGとしては、この世界についてかなり理解があるニューラルネットワークを作らないと、絶対に自動運転は作れないと思っています。
2022年の現在だとちょっと厳しいかなとは思っていますが、2年後、3年後、2025年ぐらいになったら、届くかなというのが正直な感想です。
走行データはどんどん取っていくので、疑似的な距離として少なくとも世界中の道路を、1周したのに近い距離までいけないかな、と思っています。
ちなみに、日本の国道は合計で120万キロで、2023年にはそれぐらいの距離になるはずです。調達した金額もそんなに小さな額ではないので、きちんと組織立ててデータを取っていくことで、チームとして本当にスケールの大きな課題に取り組めていると思っています。
ハイヤリングもやっているので、ぜひよろしくお願いしますという話です。もう1度話しますが、我々は自動運転とかオシャレなだけではなく、きちんと車を作って、自動運転を作っていこうと思っています。車というものがきっと今までの我々の知っているものとは大きくがらりと変わると思うんですよね。
おそらく移動するリビングルームみたいになると思います。このように、この世界がドラスティックに変わっていくという、その一助をやっていきましょうという感じです。
最後にTURINGが証明したいこと。「We Overtake Tesla」は何かという話ですが、車を作る能力に関しては、日本は世界有数です。量産車を作るとか、クオリティの品質の担保という意味では、本当にすごく高いレベルです。
一方で、ハードウェアとしての良い品質の車がありながらも、ソフトウェア、つまりある種我々みたいな人間と、かなり縁遠い状況にあるんですね。これはけっこうボトルネックかなと思っています。
テスラという会社のすばらしいところは、ハードウェアとソフトウェアが仲良くやっていることです。
ハードウェア部分があったり、組み込みがあったり、例えばラズパイとAndroidを組み合わせてやったり、データ収集基盤をどう作るかという話も含めて、最後にS3とSagemakerがあり、こういった複合的な流れを作らないと自動運転はできません。
今までの多くのスタートアップがチャレンジしてきたピュアなソフトウェア領域だけじゃなくて、ハードウェアも絡んできます。
でも、やはりこういった複数のことができると、きっとすばらしいプロダクトを世界に向けて発信できると思って、この会社をやっています。話は以上です。ありがとうございます。