登壇者の自己紹介とアジェンダ紹介

井ノ上雄一氏:よろしくお願いします。今日は、「Turingにおける自動運転モデルの開発とW&Bの活用」というタイトルで発表いたします。

まず、簡単に自己紹介させてください。私は、井ノ上雄一と申します。今、Turing株式会社のBrain Researchチームという研究チームでやっています。

京大で博士号を取っています。あと、「Kaggle」というデータサイエンスのコンペティションのプラットフォームで、Grandmasterのタイトルを持っています。

Kaggleは、機械学習のモデルをいろいろ開発してスコアを上げて競うものなのですが、私は、昔からけっこうW&Bを愛用しています。(スライドを示して)これは、2ヶ月以上参加したコンペティションで、めちゃめちゃ実験をしました。最初の1ヶ月ぐらいはまったくスコアが上がらず、すごく鬱だったのですが、ある日突然こういう感じでパーンとスコアが上がったという、めちゃめちゃいい思い出がありまして(笑)、それ以来このW&Bのログ画面の中毒にすごくなっている感じでございます。

今日お話しすることですが、最初に会社の紹介を簡単にさせてください。その後、Turingは自動運転の会社なので、その自動運転の戦略をお話しして、そこでやっている「Driver model」の開発と「Navigator model」の開発を、W&Bの活用事例を交えながらお話できればなと思っています。

「We Overtake Tesla」を掲げ、完全自動運転EV車両の開発・製造を行う

あらためまして、私はTuring株式会社というところにいます。事業内容は、完全自動運転EV車両の開発・製造で、AIやソフトウェアに強い人たちが創業した会社です。

会社を作った時から、2つの大きな課題に取り組んでいます。1つが、完全自動運転を作ること。もう1つが、新たな完成車メーカーの誕生というところで、車を作る、車のメーカーになることを掲げてやっています。

Turingは2年前に創業しました。2022年7月に10億円のシードラウンドで調達したり、(スライドを示して)この下のほうにあるように、自分たちの自動運転システムで北海道を長い距離走ったり、そのシステムを搭載した車を2023年2月にお客さんに実際に販売したり。

(スライドを示して)右上にあるように、車の会社ということで、「コンセプトカーとしてこういう車を作ります」と2023年3月に発表しており、これなどは生成AIで作っています。さらに、2023年6月には実際に車両を開発する生産拠点として工場も作っています。

こういう大きな場で言うのはちょっとはばかられるところがありますが、私たちは、「We Overtake Tesla」という目標を掲げてやっています。

これはどういうことかというと、アメリカや中国には、「EV作るぞ」「自動運転作るぞ」というスタートアップがめちゃくちゃたくさんあるんですよね。数百社あるのですが、日本にはなかなかそういう大きいことを言う人たちがいないよねって。

でも、私たちだってできるだろうって。最初にお話ししたKaggleは、日本の参加者がめちゃめちゃ強いので、能力的には絶対できるはずだということで、こういう大きな目標を掲げてやりましょう、大きな市場を狙ってやりましょうというところで、この分野で業界を変えたテスラを超えてやるという思いを掲げてやっています。

Driver modelとNavigator modelを分離する戦略

ここから、Turingの自動運転戦略をご紹介しようと思います。

Turingが目指す完全自動運転について。自動運転には、1から5レベルがあります。レベル1なら人間の補助が必要だとか、レベル3、4だと、限定区間で自動運転が可能など、そういったものがあります。

私たちが目指す完全自動運転は、ハンドルがない市販車です。普通の人にも乗ってもらえるものを目指しています。

これまでの自動運転は、(スライドを示して)こういうふうに高価なセンサーをたくさんつけて、高精度の地図を使って完全にぶつからない、自分が今どこにいるかがわかってしっかり進めるといった手法が主流でした。

しかし、実際運転をする中では、(スライドを示して)この左にあるような複雑な看板とか、交通誘導員の指示にいい感じに従うとか、あまりないけれど難しいシーンが運転のタスクにはもう無限に存在しています。

こういう複雑な状況を突破するために、Turingは、Driver modelとNavigator modelという戦略を考えています。Driver modelというのは、これまでみたいにセンサーをしっかり使って認知・推論を行う、高速に動く軽量なモデルです。

Navigator modelは、総合的な認知・意思決定を行う大規模基盤モデルで、自然言語なども扱えて、いろいろ理解して判断できるモデルです。

この、速い反応が要求されるDriverのモデルと、複雑な判断ができるNavigatorのモデルを分離してモデルを開発することで、これまで難しかった状況を突破できるんじゃないかという仮説でやっています。

(スライドを示して)この右の画像は「ラリー」という車の競技で、すごい山道を走るのですが、この右の方がドライバーの役割で、道を見ながらもう本当に一生懸命運転しています。

左の人がどう進むかを指示していて、ここでも実際、ドライバー、ナビゲーターというふうにやっています。こういうところから着想を得て、この戦略でやっています。

カメラを活用した「Vision Centricな自動運転」を目指している

ここからは実際にDriver modelをどう開発しているかを紹介していこうと思います。

先ほどもお話ししたとおり、これまでの自動運転は、高品質なセンサーと、高精度で3次元の地図に頼っていたのですが、これは非常にハイコストです。

(スライドを示して)左のセンサーは、やはり精度が良ければ良いほどしっかり運転できますが、精度に比例して価格もどんどん上がっていきます。

(スライドを示して)右にある高精度のマップを作るのもすごくハイコストですし、Turingが目指している車は、どこでも運転できなきゃいけないのですが、これ(高精度マップ)に頼りすぎると、地図がない場所だったり、地図の状況がちょっと変わってしまったりというケースで運転できません。

さらに、この左の上についているのがLiDARという、非常にすばらしいセンサーなのですが、このようにくるくる回るセンサーとして使われていて、開発者的にはこういう見た目はけっこう興奮するのですが、やはり市販車というところでこういう見た目は受け入れられないんじゃないか(と思いました)。

というところで、Turingは「Vision Centricな自動運転」を掲げてやっています。これはカメラを使った自動運転で、先ほど言ったテスラなどは、実際にこのアプローチですでにかなりいい自動運転を達成しています。

(スライドを示して)左のカメラを使って、こういう3次元のボクセルなどを出した自動運転モデルを使って、実際にテスラは北米などで走らせています。

右は、2023年の「CVPR(Computer Vision and Pattern Recognition Conference)」のBest Paperにもなっているものなのですが、カメラを入力として、エンドツーエンドで途中でさまざまなタスクを解かせながらも最終的にしっかりした運転ができるといったフレームワークが評価されています。

見てもらったらわかるとおり、RGBは情報としてすごくリッチですし、画像はもうすごく成熟している技術です。こういうデバイスで取り扱うのが、かなり技術が進んでいるというところで、「Vision Centricな自動運転」と掲げてやっています。

Turingは、すでにレベル2相当のDriver modelを開発していて、(スライドを示して)こちらはカメラの映像をフル活用した深層学習モデルを使ったモデルです。

先ほど少しお話ししたとおり、この自動運転システムを使って、すでに北海道ではかなりの距離を走っていますし、実際に売った車にも搭載されています。

「2024年中に100台の車を生産して売るぞ」とTuringは掲げて今がんばっているのですが、この車に今よりさらに進化したDriver modelを載せるつもりで今開発を進めています。

このドライバーモデルは深層学習ベースなので、実際のデータ収集もかなりやっています。このようにカメラを車に4方向につけて、GPSや加速度計などもつけています。車のアクセル、ブレーキ、ハンドルといった情報も収集できます。

実際に、これは車の価格を除けば1台20万円以下で作れます。車の電源系なども使いながら運用できる車を実際に今6台、7台ぐらい作っていて、走行パートナーさんを雇って、今日もいろいろなところを走ってもらっています。

学習のモニターに「W&B」をフル活用

このように集めたデータを今は「AWS」などを使ってデータを管理しています。データを上げて、前処理を行って、動画なので動画を画像にしたり時刻情報や、先ほど言ったGPSの情報などをきちんとテーブルに保存して、データレイクに入れて、ラベルをつけて、画像の前処理などをして、(スライドを示して)この右上にある「Training」というところで学習を回しています。

ここでは、W&Bさんのものをめちゃめちゃ使ってログを取っています。学習したモデルを今度はどんどんどんどん溜めていって、それをシミュレーターや実機に載せて、今は回していく。こういう機械学習のシステムを構築してDriver modelを作っています。

この学習のモニターにW&Bさんをめちゃくちゃ使っています。(スライドを示して)この下にあるように、学習のLossなどいろいろな評価指標をプロットしていくのに加えて、上にあるように、学習をうまく進めるためのセグメンテーションなど、そういった補助タスクの可視化にも使っています。

この補助タスクの可視化は学習が進むごとに毎回保存していて、最初はぜんぜんセグメンテーションができていませんが、どんどん進んでいく。

ステップごとに保存していくことで、モデルがどういうふうに学習しているかなど、モデルの特性の考察に使用しています。こういうふうにDriver modelは、もうガンガンガンガン学習を回していって、いいものを作るということを今やっています。

学習したモデルは、シミュレーターに自動でデプロイされます。右の画像が切れていますが、シミュレーターで勝手に、わーと走って、いい感じで進んだり、壁にぶつかっていたりします。(スライドを示して)この左の黒いところは「Slack」ですが、毎日どんどんどんどんSlackに結果が上がるので、いいモデルかどうかを見ています。

モデルがいい感じだとなったら、それを実際に車にデプロイして、車のテストコースなどで走らせて、検証しています。

このように今はDriver modelを2024年の車に載せるために、どんどんどんどん学習を進めて開発を行っています。

(次回へつづく)