CLOSE

NVIDIA CEO Jensen Huang Keynote(全6記事)

次なる時代のフロンティアはフィジカルAIにあり NVIDIA創業者が明かす「AI×ロボティクス」の可能性

NVIDIA創業者Jensen Huang氏が、アメリカ・ラスベガスで開催された「CES 2025」の基調講演に登壇。GeForceなど新プロダクトが続々と発表された講演でしたが、ロボティクスを操作するフィジカルAIについても触れられました。AI×ロボの先進技術はどこまで進み、どんな未来が描かれるのか。次世代型の世界基盤モデル「NVIDIA Cosmos」の性能を交えながら、同社のフィジカルAI開発について語りました。

NVIDIA AIをすべての会社に導入してもらいたい

Jensen Huang氏(以下、Huang):AIはクラウドで、クラウドのために作られたものです。AIはクラウドで、クラウドのために作られますが、もちろん携帯電話で楽しむにはパーフェクトです。

ごく近い将来、私たちは継続的なAIを手に入れることになるでしょう。それはあなたと共にあり、このようなメタグラスを使用すれば、いつでも何かを指したり見たりして、欲しい情報を尋ねることができます。

クラウド上でAIは完璧です。クラウドで作られたものは、クラウド上で完璧に機能します。私たちは、このAIをどこにでも連れていけるようにしたいと考えています。

すでにお話したように、NVIDIA AIは任意のクラウドに導入できますが、みなさまの会社に設置することもできます。しかし私たちが一番やりたいことは、PCに搭載することです。

存知のとおり、Windows 95はコンピューター業界に革命を起こしました、この新たなマルチメディアサービスを可能にし、アプリケーションの作成方法を一変させました。Windows 95というコンピューティングモデルは、もちろんAIにとって最適ではありません。そこで私たちが将来実現したいことは、AIを基本的にみなさまのアシスタントにすることです。

そして3D APIや音声API、動画APIだけでなく、3D用の生成APIや言語用の生成AI、音声用の生成AIなどが出現するでしょう。私たちは、クラウドに巨額の投資をしながら、それを可能にするシステムが必要です。それ以外の方法でAIモデルをプログラミングすることは不可能です。

それは起こり得ないことです。ですからWindows PCを世界レベルのAI PCにする方法が分かれば最高です。そしてその答えはWindows、Windows WSL2であることが判明しました。

重要なのは、CUDA向けに最適化されていること

Huang:Windows WSL2は基本的に一台のコンピューターの中に2つのオペレーティングシステムがあり、完璧に動作します。開発者のために設計され、ベアメタルにアクセスできます。WSL2はクラウドネイティブアプリケーション向けに最適化されています。

特に重要なポイントは、CUDA向けに最適化されていることです。そのため、WSL2はCUDAを完全にサポートしています。みなさんにお見せしたNVIDIA NIMSやNVIDIA NEMO、そして私たちが開発したブループリントのすべてがai. nvidia. comにアップロードされる予定です。

コンピューターがモデルに適合するかぎりご使用いただけます。適合するモデルは、ビジョンモデルでも、言語モデルでも、音声モデルでもあらゆる種類のモデルがご利用いただけます。

さらには、アニメーションモデルやデジタルヒューマンモデルなど、さまざまな種類をご用意します。後はモデルをPCにダウンロードして動作させるだけです。私たちにとって重要なことは、Windows WSL2、Windows PCを、私たちが生きている限りサポートし、維持する一流のプラットフォームにすることです。

NVIDIAの生成AIが可能にするハイクオリティな画像合成

Huang:これは世界中のエンジニアや開発者にとって信じられないことです。これに関して私たちが何ができるかお見せしましょう。みなさまのために当社が作成したブループリントの一例です。

映像音声:生成AIはシンプルなテキストプロンプトから驚くような非常に素晴らしい画像を合成します。とはいえ、画像の構成を言葉だけでコントロールするのは難しい場合があります。NVIDIA NIMSマイクロサービスがあれば、クリエーターは簡単な3Dオブジェクトを使ってAI画像を生成できます。

コンセプトアーティストがこの技術を使ってどのように視覚的なシーンを作り上げるか見てみましょう。まず手作業またはAIで生成した3Dアセットを配置します。

次に、Fluxなどの画像生成NIMを使用して視覚的なシーンを作り、3Dシーンに貼り付けます。オブジェクトを追加したり移動させたりして構図を調整します。

カメラのアングルを変えてショットの完璧なフレーミングを行います。シーンを再構築する場合は新しいプロンプトを使用します。

生成AIとNVIDIA NIMにより、アーティストは素早くビジョンを実現することができます。

NIVIDIA AIはみなさんのPCのためにあります。世界には数億台におよぶWindows PCがあります。私たちはこうしたPCをAIに適応させることができます。NVIDIAのOEMパートナーは、基本的に世界をリードするすべてのPC OEMであり、PCがこのAIスタックを利用できるよう準備を進めています。ですから、ご家庭でAI PCを利用できるようになります。

Linuxもいいですね。

ロボティクスを操るフィジカルAIについて

Huang:さて、フィジカルAIについてお話ししましょう。Linuxといえば、フィジカルAIについてお話する必要があるでしょう。フィジカルAI。想像してください。大規模言語モデルでは、コンテキストやプロンプトを左側に与え、1つずつトークンを生成してアウトプットを出力します。これが基本的な仕組みです。

このモデルの中核は非常に大規模で、数十億個のパラメータを持ち、コンテキストも信じられないほど長く、PDFに読み込みたくなるかもしれません。私なら、質問する前に複数のPDFに読み込むかもしれません。

これらPDFはトークンに変換されます。Transformerの基本的な注意特性として、すべてのトークンが他すべてのトークンとの間に関係性を持ちます。

したがって、トークンの数は数十万におよぶ可能性があり、計算負荷は二次関数的に増加します。これが、すべてのパラメータや入力シーケンスに対して行われます。あらゆるレイヤーでTransformerが処理を行い、1つのトークンが生成されます。

これが、Blackwellが必要だった理由です。現在のトークンが完了すると、次のトークンが生成されます。現在のトークンを入力シーケンスに入れ、それ全体を受け取ってから次のトークンを生成します。一度に1つずつ行われます。

これがTransformerモデルです。

ロボティクス技術の登場は目前に迫っている

Huang:これが信じられないほど効果的な一方、計算負荷が高い理由です。PDFではなく、みなさんの周辺環境だったらどうでしょう? プロンプトが質問ではなく「あそこに行ってあのボックスを取って戻ってきて」という指示だったら?

そしてトークンとして生成されるのがテキストではなくアクショントークンだったとしたら。今、私が言ったことは、ロボティクスの未来にとって極めて理にかなったことであり、そうした技術の登場は目前に迫っています。

しかしながら、私たちがすべきことは、効果的な世界モデルを作り出すことです。GPTが言語モデルであるのとは対照的に、この世界モデルは世界の言語や重力、摩擦、慣性といった物理的なダイナミクスを理解する必要があります。

そこでは幾何学的および空間的な関係性、因果関係を理解することが不可欠です。何かを落としたら地面に落ちること、突くと倒れることを理解する必要があります。物体の永続性についても理解する必要があります。

ボールをキッチンカウンターの上でボールを転がして、反対側に落ちたとしても、ボールは別の量子宇宙に消えたわけではなく、まだそこにあります。このような理解、私たち人間がもつ直観的な理解は、今日のモデルの大半が苦手とするところです。

AIの次のフロンティアは「NVIDIA Cosmos」

Huang:私たちは世界を創造したいと考えています。私たちには世界基盤モデルが必要です。本日、非常に重要な発表があります。物理世界を理解するために設計された世界基盤モデル「NVIDIA Cosmos」です。これを本当に理解するには、実際に見ていただくのが一番です。ご覧ください。

(映像開始)

映像音声:AIの次のフロンティアはフィジカルAIです。モデルの性能はデータの入手可能性に直接関係していますが、物理世界のデータの取得、キュレーション、レベル付けには多大なコストがかかります。

NVIDIA Cosmosは、フィジカルAIを進化させるための世界基盤モデル開発プラットフォームです。

このプラットフォームには自動回帰型の世界基盤モデル、拡散ベースの世界基盤モデル、高度なトークナイザー、NVIDIA CUDAによるAI加速データパイプラインが含まれています。

Cosmosモデルは、テキスト、画像、動画のプロンプトを取り込み、仮想世界の状態を動画として生成します。Cosmosは自動運転車やロボティクスが実際に動作する上での特有な要件、例えば現実世界の環境、照明、物体の永続性を重視して作成されています。

開発者はNVIDIA Omniverseを使用して物理ベースの正確な地理空間シナリオを構築し、それをCosmosに出力することで、写実的で物理ベースの合成データを生成します。

多様な物体や環境、天候や時間帯などの条件、極端なシナリオまで対応します。開発者はCosmosを使って強化学習AIフィードバックのための世界を生成し、複数のセンサーからの視点を含めたAIによるフィードバックに基づいてポリシーモデルを改善し、モデルの性能をテストして検証します。

Cosmosはリアルタイムでトークンを作成し、AIモデルに予測能力とマルチバースシミュレーションの力をもたらします。可能性のあるあらゆる未来を生成することで、モデルが正しい経路を選択できるよう支援します。NVIDIAは、フィジカルAIの次の波を進歩させるため、世界のエコシステム開発者と連携しています。

(映像終了)

物理世界を理解させるのが真の目的

Huang:世界初の世界基盤モデルであるNVIDIA Cosmosは2,000万時間におよぶ動画データを学習しています。この2,000万時間の動画は物理的な動きのある対象、例えば、動的な自然のテーマ、人の歩行、手の動きや物体の操作、素早いカメラの動きになどに焦点を当てています。

これは、AIに創造的なコンテンツの生成を学習させることではなく、物理世界を理解させるのが真の目的です。そしてこのフィジカルAIを基に、私たちは多くの応用技術を展開しています。モデルに学習させるための合成データを生成することができます。

それを蒸留して効果的にロボティックスモデルの種、つまり土台となるモデルに変換することができます。そしてこの種から、物理法則に基づいた実際に起こり得る将来のシナリオを複数生成することができます。基本的に(マーベル作品の)『ドクター・ストレンジ』みたいなことができるわけです。

このモデルは物理的世界を理解しており、ご覧いただいたような多くの画像を生成することができます。物理世界を理解しているこのモデルは、キャプションも生成することができます。動画を取り込み、極めて精度の高いキャプションを生成します。

そして、その動画のキャプションは、大規模言語モデル、マルチモーダル大規模言語モデルの学習に活用できます。そのため、この基盤モデル技術を使ってロボットや大規模言語モデルに学習させることができます。

これがNVIDIA Cosmosであり、このプラットフォームは、リアルタイムアプリケーションのための自己回帰モデル、極めて高品質な画像生成のための拡散型モデルを搭載しています。

これは驚くべきトークナイザーで、現実世界の語彙を学習しています。そして独自のデータで学習させたい場合のためのデータパイプラインも備わっています。これには膨大なデータが必要になるため、すべてのプロセスをエンドツーエンドで高速化しています。

これはCUDAとAIの両方によって加速された世界初のデータ処理パイプラインになります。これらすべてがCosmosプラットフォームの一部となっています。

続きを読むには会員登録
(無料)が必要です。

会員登録していただくと、すべての記事が制限なく閲覧でき、
著者フォローや記事の保存機能など、便利な機能がご利用いただけます。

無料会員登録

会員の方はこちら

関連タグ:

この記事のスピーカー

同じログの記事

コミュニティ情報

Brand Topics

Brand Topics

  • NVIDIA創業者「自動運転車産業の時代が到来した」 ロボティクスの先進技術が可能にするエキサイティングな未来

人気の記事

新着イベント

ログミーBusinessに
記事掲載しませんか?

イベント・インタビュー・対談 etc.

“編集しない編集”で、
スピーカーの「意図をそのまま」お届け!