運転手がAIだと判別できないのが完全自動運転のあるべき姿　“ディープラーニングで世界をドラスティックに変える”挑戦

EVENT

AWS Startup Community Conference 2022

2022年08月26日に開催

AWS Startup Communityがお送りする、年に1度の祭典、「AWS Startup Community Conference 2022」。日本中のAWSを利用するスタートアップが、AWSの知見を披露するHubとなる1日です。ここで登壇したのは、TURING株式会社・CEOの山本一成氏。ディープラーニングによる、完全自動運転の実現について話しました。全2回。後半は、“完全自動運転”のあるべき姿と、TURINGの取り組みについて。

スピーカー

山本一成

TURING株式会社 CEO

完全自動運転車のあるべき姿とは？

山本一成氏：ちょっと話が戻りますが、自動運転車はどうあるべきなんでしょう？

完全な自動運転車には、ハンドルがありません。ハンドルがない自家用車がどういう挙動を示すのか。社内で喩えられている話ですが、例えば、タクシーの運転手さんが専属のドライバーをしているのは、完全自動運転車になっているじゃないですか。

そんな感じで、例えば前のドアが完全に黒い壁で仕切られていて、声やタッチパネルで運転手らしき人に命令、あるいは指示を送ると、その結果として、我々はA地点からB地点に行けます。そうなった時に、その運転手が人だったのかAIだったのかの区別がつかないことこそが、完全自動運転車のあるべき姿じゃないかなと思っています。

ちなみにこれは、わかる人はわかるかもしれませんが、チューリングテストといいます。チューリングテストは、チャットで打ち込むとボットまたは人から返事が来て、区別がつかなかったならば、そのAIは人間レベルの知能があるだろうという話です。自動運転車もそういった、人あるいは人に準ずる知能を持っている必要があるのかなと思います。

でも、これはすごく大変なことで、AIは幅広くこの世界のことを理解しなきゃいけないんですよ。

例えば、「あっ、あっち行って」「あっちって何？」みたいな、よくわからない指示が人から飛んでくるわけですよね。「ええと、ちょっとトイレに行きたい」とか。なんなんですかね、この指示は。でも、こういった指示も人間が運転していたらありますし、実際にこういうことができるのは、乗用車の魅力的なんですね。

こういったレベル、あるいはこれに準ずるレベルが、我々が達成しなきゃいけない、あるいは本当の意味でハンドルがない車として達成しなきゃいけないレベル感だと思っています。

カメラベース、センサーベース　テスラとウェイモで異なる設計思想

（スライドを示して）そういう話を考えると、この世界についてかなり理解があるAIを作る必要があると思っています。

ここは、けっこうフィロソフィーですが、今の自動運転はちょっと難しいところがあって、センサーをたくさんつけましょうというコンテキストが多いんですよね。

それはすごく素敵な話なんですが、ちょっと議論にのぼりにくい点としては、頭を良くしなきゃいけないというのがあります。

向かい合わせになってしまって、向かいの車が行くのか自分が行くのかという状況が生まれた時、ある種のネゴシエーションが発生します。こういったネゴシエーションの状況は、視力が良ければ解決できるわけではありません。

人間であれば、例えば相手の運転手の雰囲気、顔、あるいは車の微妙な挙動を見て判断しています。まさに、こういったことを解決しないと、なかなか（自動運転は）できないだろうなと思っています。

参考としてですが、私はテスラのModel 3を持っていて、この間洗車をしてきれいになりました。これは高速道路だとかなりレベルの高い自動運転ができますが、カメラとちょっとしたセンサーが入っているぐらいなんです。基本はカメラベースでやっています。

一方でウェイモ（Waymo）は、みなさんが馴染みのないセンサーをいろいろ積んでいて、このあたりはけっこう設計思想に差ができているかなと思います。

カメラを使ったディープラーニングはンピュータービジョンの中で一番進んでいる

（スライドを示して）このカメラについて、イーロン・マスクさんの話を「DeepL」にかけて翻訳しました。

なんかちょっと珍妙な言い方をしていますが、カメラだとたくさん情報が来るんですね。可視光はやはりなかなかいい情報の場所なんですよ。何が言いたいかというと、だいたいの生き物は可視光領域、あるいは可視光領域付近を使っています。だから、地球に生きる上で可視光はけっこう便利な情報で、こういったものを使うといいんじゃないかという話をしています。

逆に言うと、現状AIは、まだ可視光領域のセンサー、つまりカメラをもってしても、なかなか全部のデータを使い切れていないと思っています。

人間は基本的に目、あと少し耳と、三半規管も使っているのですが、基本的に可視光領域の情報を使って運転しているというのは間違いありません。人間のように頭がいい判断器があれば、可視光領域のセンサーを使うだけでも、相当できると思っています。

カメラを使ったディープラーニングは、当然ながらコンピュータービジョンの中では一番進んでいる領域です。この大きな進歩にTURINGは乗っかっていこうと思っています。

逆に言うと、今のディープラーニングは、4K、8Kのレゾリューションまでなかなか使い切れていないと思っています。このあたりも今後計算機が拡大していくと、きっと使い切れるようになるんじゃないかなと思っています。

TURINGが今取り組んでいること

では、どんなふうにやっていくか。TURINGは実際にすでに、公道上でできる開発をしています。といっても、まだ公道で走っているわけではなく、こんな感じでやっています。

（スライドを示して）今は、走行のアルバイトを雇って、車の上にカメラなど各種のセンサーや車載のデータを載せています。車載のデータは、ハンドルがこうであったとか、ウィンカーをどう出したかとかです。ウィンカーは人間の意思表示としてなかなかおもしろいので、ぜひ学習に欲しいデータだと思っています。

あるいは、その時の地図はどうだったのかとか、加速度計とか。これらも車のデータから取れなくもないんですが、GPSやいろいろなデータを取って、オフィスのNASに上げて、S3に上げて、「Sagemaker」で学習しています。AWSの話だからね、一応AWSの話をしておかないといけないんですよ（笑）。

話を戻して、Sagemaker上でどういうことをやっているかというと、まずは予想経路です。予想経路は、AIがハンドルをどう切るかに直結しますよね。

あるいは、マルチタスク。厳密にディープラーニングにおけるマルチタスクというかどうかはちょっとわかりませんが、先行車がどこにあるかとか、今の自分の速度を予想させたりとか、あと一番大事なのは白線で、その予想もやっています。白線の予想がけっこうおもしろいのですが、言い出すと終わりがないので、このくらいにしておきます。