アメリカ・ラスベガスで開催された「CES 2025」の基調講演で、NVIDIA創業者Jensen Huang氏が、NVIDIAのAI技術の現在地や将来像を明かしました。講演で新プロダクトが続々と発表されるなか、次なるお題目は同社の自律型AIエージェントについて。プロンプトを必要とせず、高度で複雑なタスクを実行できる次世代のAIをどのような場面に活かすのか。「Blueprint」や「Llama Nemotron」といった技術の可能性とともに聴衆にプレゼンしました。
NVIDIAの自律型AIエージェントの将来像
Jensen Huang氏(以下、Huang):今エンタープライズITの世界で起きている最も重要なことにエージェント型AIがあります。このAIエージェントは、テストタイム・スケーリングの完璧な例の1つです。AIというものはたくさんのモデルによるシステムです。
その一部のモデルは理解、顧客やユーザーとのやりとりを行い、また、情報の検索やストレージからの情報取得、RAG(検索拡張生成)のようなセマンティック検索システムであるものもあります。インターネットに接続するものもあります。
PDFファイルを分析しているかも知れません。ツール、あるいは電卓を使っているのかも知れません。生成AIを使ってグラフを作成していているのかもしれません。そして反復的に、与えられた問題をステップごとに分解し、さまざまな異なるモデルを繰り返し試しているのです。
将来的にAIが顧客に対応するためには、ということですが、以前は、質問をすれば答えがポンポンと出てくるものでした。将来は、何か1つ質問をすると、バックグラウンドで多数のモデルが同時に稼働するようになります。
そして、テストタイム・スケーリングが起こる中で、推論に使用される計算量は天井知らずに増えていくでしょう。なぜなら、私たちが常により良い答えを求めているからです。
業界がAIエージェントを構築するにあたり、当社の市場展開戦略(GTM)は、エンタープライズ顧客に直接アプローチをするものではありません。当社の戦略は、ITエコシステム内のソフトウェア開発者と協力し、技術を統合して新たな能力を実現することです。
ちょうどCUDAライブラリーで行ったことを今、AIライブラリーでも行いたいと考えています。過去のコンピューティングモデルには、コンピューターグラフィックスや線形代数、流体力学を行うAPIがありました。
AIエージェント構築支援のために開発したもの
Huang:将来的には、これらのCUDA高速化ライブラリーに、AIライブラリーが追加されるでしょう。エコシステムのAIエージェント構築を支援するため、私たちは3つのものを開発しました。
まずNVIDIA NIM。これは要するに、すべてがパッケージ化されたAIマイクロサービスです。ここには、CUDA DNN、CUTLASS、TensorRT-LLM、TritonなどのCUDAソフトウェア、つまり、さまざまな極めて複雑なソフトウェアとモデルそのものが組み込まれています。
それをパッケージ化し、最適化してコンテナ化したので、どこでも好きな場所へ持ち運ぶことができます。視覚、言語理解、音声、アニメーション、デジタル生物学のためのモデルがあり、さらにフィジカルAIの分野でも新たなおもしろいモデルがいくつか登場する予定です。
そして、これらのAIモデルはあらゆるクラウド上で作動します。なぜなら、NVIDIAのGPUは現在あらゆるクラウド、あらゆるOEMで利用可能だからです。ですから、これらのモデルを入手し、自社のソフトウェアパッケージに統合して、Cadenceプラットフォーム上で実行可能なAIエージェントを作成することができます。
あるいは、ServiceNow AIエージェントやSAPエージェントの作成も可能です。こういったものを作成して展開し、顧客が希望する場所でソフトウェアを実行することも可能です。次のレイヤーは、私たちがNVIDIA NeMoと呼んでいるものです。
NeMoは端的に言えば、デジタルワークフォースのための導入および研修・評価システムです。将来、AIエージェントはデジタルワークフォースとして社員とともに働き、みなさんに代わって業務を遂行することになります。
生成AIの開発スピードを加速させる「Blueprint」
Huang:これらの専門エージェントを会社に迎え入れる方法、つまり、これらの特化型エージェントを戦力化する方法は、新入社員と同じような導入プロセスを踏むことです。AIエージェントを企業に特有の言語タイプに合わせてトレーニングするため、さまざまライブラリーが用意されています。
各社固有の専門用語や、独自のビジネスプロセス、独自の働き方などが存在するかもしれません。期待される成果物の例をAIエージェントに示し、AIはそれを生成しようと取り組みます。そして、その成果物に対してフィードバックを与え、評価する、といった流れになります。
制御のためのガードレールも設定します。してはいけないこと、言ってはいけないことなどを教えます。そして、特定の情報へのアクセスも許可します。このデジタルワークフォースのパイプライン全体のことをNeMoと呼んでいます。
いろいろな意味で、企業のIT部門は将来、AIエージェントのHR部門となるでしょう。現在のIT部門ではIT関連のソフトウェアの管理や保守を行っています。将来は、デジタルエージェントを大量に維持し、育成してその能力を向上させ、会社が活用できるようなかたちで提供することになるでしょう。
つまり、みなさんの会社のIT部門は将来、AIエージェント用人事部のようになっていくということです。
さらに、私たちのエコシステムで活用可能な「Blueprint」(ブループリント)を多数提供しています。すべて完全にオープンソースモデルなので、入手したブループリントは自由に修正が可能です。さまざまなタイプのエージェント・ブループリントも用意しています。
大規模言語オープンモデルを基盤にした「Llama Nemotron」
Huang:本日はもう一つ、とてもクールで独創的なものを発表します。大規模言語オープンモデルLlamaをベースにした基盤モデル「NVIDIA Llama Nemotron」の全ラインナップをご紹介します。
Llama 3.1は本当に画期的なモデルです。Llama 3.1のMetaからのダウンロードは65万回にものぼります。また、派生モデルや他のモデルに変換されたモデルは6万種類あります。その理由は、あらゆる業界の企業がこぞってAIへの取り組みを本格化させているからに他なりません。
私たちは、Llamaモデルにはエンタープライズ向けに、さらにきめ細かく調整できる余地があることに気づきました。そこで、当社の専門知識と能力を駆使してそれらを精緻化し、基盤モデルとして、オープンモデルのLlama Nemotronファミリーとして提供することにしました。
超小規模のモデルは極めて応答速度が速く、SUPERと呼ばれるのはミドルレンジモデルです。ULTRAは、他の多数のモデルの教師モデルとして使用することができます。報酬モデルとして、他のモデルが作成した回答の良し悪しを判定する評価者として、フィードバックを与えることもできます。
さまざまな手法での蒸留も可能です。教師モデルは基本的に知識蒸留モデルであり、非常に大規模で能力の高いものです。Nemotronモデルはいずれもオンラインからダウンロード可能になりました。
これらのモデルはいずれも秀逸で、チャット、インストラクション、検索のリーダーボードでそれぞれ第1位のスコアを獲得しています。さまざまな種類の機能を提供していますが、これは世界各地でAIエージェントに使用されるため必要だからです。これらはみなさんにとって素晴らしいモデルとなるでしょう。
パートナー企業とともにエコシステムを形成
Huang:また、当社はエコシステムとも連携しています。NVIDIAのAIテクノロジーはIT業界のいたるとことに組み込まれており、すばらしいパートナーと協力して目覚ましい成果をあげています。
ServiceNow、SAP、Siemensとは産業用AIの分野で目覚ましい成果をあげています。Cadence、そしてSynopsysも大きな成果をあげています。
当社がPerplexityとともに成し遂げた仕事を本当に誇らしく思います。ご存知のように、このAIは検索に革命をもたらしました。本当に優れたものです。そしてCodeiumは世界中のソフトウェアエンジニアが使っています。
これは次世代の巨大なAIアプリケーションとなるでしょう。次に到来するAIサービスの巨大な波はソフトウェアコーディングです。世界には3,000万人のソフトウェアエンジニアがいますが、誰もがソフトウェアアシスタントを手に入れ、コーディングを手伝ってもらうようになるでしょう。
そうしなければ、生産性は大幅に低下し、良いコードも書けなくなるでしょう。この3,000万人に加え、世界には10億人の知識労働者がいます。AIエージェントは確実に、次世代のロボット産業となり、数兆ドル規模のビジネスチャンスをもたらすでしょう。
AIエージェントは新たなデジタルワークフォース
Huang:それではここで、私たちが作成したブループリントの一部、そしてAIエージェントを使ってパートナー企業と共同で行った取組みの一部をご紹介しましょう。
(動画再生)
動画音声:AIエージェントは新たなデジタルワークフォースです。私たちのために、そして私たちとともに働きます。AIエージェントは複数のモデルによるシステムで、ミッションについて推理し、それを個々のタスクに分解し、データを取得したりツールを使用して、質の高い回答を生成します。
NVIDIAのAIエージェントを構成する要素は、NIMで事前トレーニング済みのモデル、そしてNeMoフレームワークです。これを利用することで、企業は簡単にAIエージェントを開発し、あらゆる場所に配置することができます。
私たちは、社員に対するのと同様に、エージェント型ワークフォースを会社のやり方で導入し、トレーニングを行います。AIエージェントは、対象領域に特化したタスクのエキスパートです。例を4つご紹介しましょう。
研究アシスタント型AIエージェントは、何十億人もの知識労働者や学生のために、講義、学術誌、財務報告書などの複雑な文書を要約し、より簡単に学習できるインタラクティブなポッドキャストを生成します。
U-Net 回帰モデルと拡散モデルを組み合わせることで、CorrDiff は世界の気象予報の解像度を25キロメートルから2キロメートルへと高精度化することが可能です。
NVIDIAなどの開発企業では、ソフトウェアを絶えずスキャンして、脆弱な部分や必要な対策を注意喚起するセキュリティAIエージェントを管理しています。製薬開発の現場では、バーチャルラボ型AIエージェントを使って、何十億通りの化合物を設計・スクリーニングし、新薬の候補となる素材を従来よりもはるかに早く発見できるようになります。
映像解析AIエージェントは、大規模言語モデルが基盤
動画音声:映像解析AIエージェントは、NVIDIA Metropolis Blueprintをはじめ、NVIDIA Cosmos Nematron Vision Language Model、Llama Nematron大規模言語モデル、NEMO Retrieverを基盤としています。
このMetropolis AIエージェントは、何十億台のカメラの映像を解析して、1日あたり100,000ペタバイトの映像を処理できます。
(Jensen Huang氏の始球式の様子が一瞬流れる)
また、双方向的な検索や要約、レポートの自動作成といった機能も備えており、たとえば交通状況や渋滞、危険な状況をモニタリングできますし、製造業の現場では、作業工程をモニタリングして改善点の洗い出しにも役立ちます。
Metropolis AIエージェントは、数百台のカメラのデータを一元管理しており、事故が起きたときの作業者やロボットのルート変更もできます。このように、あらゆる場面でエージェント型AIを活かせる時代が到来しています。
(動画終了)
Huang:さきほど、野球の始球式も映っていましたが、あれは生成されたものではありません。誰も気にとめていなかったようでしたけどね(笑)。