CLOSE

NVIDIA CEO Jensen Huang Keynote(全6記事)

NVIDIAのAIシステムは「現代の工場」である 創業者が語る大規模アーキテクチャの全貌

NVIDIAのAI技術の根幹はどこにあるか。アメリカ・ラスベガスで開催の「CES 2025」の基調講演で、NVIDIA創業者Jensen Huang氏が同社の技術について語りました。生成 AI 向け次世代チップ「Blackwell」と、高速 GPU インターコネクト「NVLink」。NVIDIAの社運とテクノロジーの未来を懸けたプロダクトは、どこが優れているのか。創業者自らが大規模アーキテクチャの全貌と、NVIDIAのテクノロジーを取り巻く環境を「現代の工場」と表現する理由を明かしました。

AIがNVIDIAの「GeForce」に革命をもたらした

Jensen Huang氏:GeForceがAIを世に送り出し、AIを民主化し誰でも使えるようにしました。そして今度は、AIがGeForceに革命をもたらしました。ここからは、人工知能についてお話します。ではNVIDIAの中でどこか別の場所に移動してみましょう。

ここは私たちNVIDIAの実際の本社オフィスです。ではAIについてお話しましょう。業界は人工知能のスケーリングつまり拡張を追い求めて競い合っています。スケーリング則は強力なモデルです。この経験則は、研究者や業界により数世代に渡って観察・実証されてきました。

スケーリング則によれば、トレーニングデータの量、モデルのサイズが大きくなるほど、そしてそこに適用される計算量が増えるほど、モデルの有効性や能力が高まります。そして、スケーリング則は続いていきます。

もちろん私たちも前進し続けているわけですが、実に驚くべきことに、今、インターネットは毎年、前年の2倍の量のデータを生成する方向へと進んでいます。

今後数年のうちに私たちは、人類史上これまでに生み出されたデータの総量を上回るデータを生み出すことになると思います。今も私たちは膨大な量のデータを生み出し続けています。

しかもそのデータの種類は多様化しています。動画や画像、音声などあらゆるデータは、AIの基本的な知識をトレーニングするために利用できる可能性があります。

そして今、さらに2つのスケーリング則が現れました。これは何となく直感的に理解できるものです。2つ目のスケーリング則は、事後トレーニング・スケーリング則です。

この事後トレーニング・スケーリング則では、強化学習のような手法、人間からのフィードバックといった技術が用いられます。AIは基本的に、人間のクエリに基づいて回答を作成し、人間はフィードバックを与えます。ただし実際はこれよりもずっと複雑です。

機械学習における「事後トレーニング」の意義


極めて質の高いプロンプトを多数用いた強化学習システムにより、AIはスキルを磨くことができます。特定の領域に特化してスキルを細かく調整することもできます。数学の問題を解くのが得意になったり、推論が得意になったりといった具合です。

ちょうど、学校を卒業した後にメンターやコーチからフィードバックをもらうようなものです。テストを受け、フィードバックをもらい、自らを成長させていくのです。また、強化学習AIによるフィードバックもあります。さらに、合成データ生成もあります。

これらの手法は、言ってみれば自習に似ています。ある問題の解答を知っている状態で、正解が得られるまでその問題を解き続けるのです。AIには、機能的に検証可能な非常に複雑で難しい問題が提示されます。

そして、私たちが理解できるような答えを導き出します。定理の証明かもしれませんし、幾何学の問題を解くことかもしれません。これらの課題によって、AIは答えを導き出します。そして強化学習を用いることで、AIは自らを改善する方法を学習します。

これを事後トレーニングと呼びます。事後トレーニングには膨大な量の計算が必要ですが、結果としてすばらしいモデルが構築されます。次に、3つ目のスケーリング則があります。

生成AI向け次世代チップ「Blackwell」

この第3のスケーリング則は、テストタイム・スケーリングと呼ばれるものです。テストタイム・スケーリングとは、AIが使用されている時の状態に関係するものです。

つまり私たちがAIを使用している時、AIは異なるリソースを割り当てる能力を持っているということです。AIはパラメーターを改善するのではなく、自分が導き出したい回答を出すためにどれくらいの計算リソースを使用するか、これを決定することに集中しています。これを考える方法の1つは推論です。

じっくり考えるのも、考える方法の1つです。直接的な推論や即答ではなく、それを論理的に考えるかもしれません。問題を複数のステップに分解するかもしれません。いくつかのアイデアを出し、それぞれを評価するかもしれません。

AIは、生成されたアイデアの中でどれが最良かを評価します。そして次々と順を追って問題を解いていくかも知れません。このように、テストタイム・スケーリングは驚くほど効果的であることが証明されました。みなさんはこの一連のテクノロジーの流れを目の当たりにしています。

そして、これらのスケーリング則は、ChatGPTからo1、o3、そして現在のGemini Proに至る驚異的な進化の過程で明らかになってきました。これらのシステムはすべて、事前トレーニングから事後トレーニング、そしてテストタイム・スケーリングへと、一歩一歩、段階を踏みながら進んできました。

確かに、必要な計算量は膨大になります。そして実のところ私たちは、社会が計算量を拡大し、より斬新で優れた知能を生み出す能力を持つことを望んでいます。言うまでもなく、知能は私たちにとって最も価値のある資産です。そして、たくさんの極めて難しい問題の解決に応用することができます。さて、スケーリング則です。

これは、NVIDIAのコンピューティングに対する膨大な需要を生み出し、Blackwellと名付けたこの卓越したチップに対する巨大な需要を牽引しています。

NVIDIAのシステムには、巨大メーカー15社が参加

それではBlackwellについて見てみましょう。Blackwellは現在、フル稼働中です。実に壮観です。まず、現在、あらゆるクラウドサービスプロバイダーでシステムが稼働中です。当社のシステムには、コンピューターメーカー15社が参加しています。

約200種類のSKU、つまり200種類の異なったバージョンで製造されています。液冷式、空冷式、x86、NVIDIA Grace CPUバージョン、NVLink36x2、NVLink72x1など、世界中のほぼすべてのデータセンターに対応できるよう、さまざまなタイプのシステムが用意されています。

現在、これらのシステムはおよそ45の工場で製造されています。人工知能がどれほど普及しているか、そしてこの新しい演算モデルに業界がどれほど人工知能を積極的に導入しているのかが分かります。

私たちがなぜ、これほどまでに懸命に開発を進めているかというと、より多くの計算能力が必要だからです。そして、それは非常に明白です。

伝えるのが難しいのですが……。暗い場所に手を入れるのは嫌ですよね。ちょっと待って。これでいいのかな? (「Blackwell」の模型ウエハーを持って)よし、できた。

(マーベル作品の『キャプテン・アメリカ』のように盾を持つ決めポーズ)

(会場拍手)

「GB200 NVL72」は重量1.5トン、部品数は60万個

さて。ここからは私の自信作の発表です。NVLinkシステムですが、ここにあるラックはGB200 NVL72です。重量は1.5トン。部品数は60万個。およそ自動車20台分です。

消費電力は120キロワット。背面には支柱が取り付けられていて、これがすべてのGPUを接続しています。銅線ケーブルの全長は3.2キロメートル、5,000本のケーブルが使用されています。

これが世界で45ヶ所の工場で製造されています。私たちはこれを組み立て、液冷し、テストし、分解します。重さが1.5トンもあるので、データセンターには分解した状態で部品を輸送します。データセンターの外で再度組み立てて設置します。気が遠くなるような製造工程です。

このすべての努力には、目的があります。スケーリング則が、計算能力を大幅に増大させているたため、このレベルのBlackwellで見ると前世代比で、ワット当たりのパフォーマンスを4倍に向上させることができます。1ワット当たりのパフォーマンスが4倍、1ドル当たりのパフォーマンスは3倍です。

つまり、1世代で、これらのモデルのトレーニングコストを3分の1に削減できたということです。あるいは、モデルのサイズを今の3倍にする場合でもコストは変わりません。

しかし、重要なのはここからです。私たちがChatGPTやGeminiを使用したり、将来的には携帯電話を使ったりする際にも使用されるトークンがここで生成されています。こうしたアプリケーションのほぼすべてが、このAIトークンを消費することになるでしょう。

AIファクトリーシステムは「現代の工場」である

AIトークンはこれらのシステムによって生成されています。そして、データセンターはどこも電力の制約を受けます。もしBlackwellの1ワット当り性能が前世代の4倍であれば、データセンターで生み出せる収益、取引の量は4倍に増加します。

そして、これらのAIファクトリーシステムは、まさに現代の工場なのです。私たちの目標は、1つの巨大なチップを作れるようになることです。私たちが必要とする計算量は本当に膨大です。要するにこれが1つの巨大なチップですが、もし単一のチップとして構築しなければならなかったとすると……。

さあご覧ください。すごいでしょう?

(模型のウエハーをミラーボールのように光らせる)

ディスコライトみたいでクールでしょう?

もしこれを単一のチップとして設計しなければならない場合、サイズは当然ながらウエハー位の大きさになります。歩留まりは考慮されていませんので、実際はおそらくこの3倍から4倍のサイズになるでしょう。

しかし、ここにあるのは72個のBlackwell GPU、つまり144個のダイです。

このチップ1枚の性能が1.4EFLOPSです。世界最大、世界最速のスーパーコンピューター、この部屋全体を占める大きさのスーパーコンピューターが、最近ようやく1 EFLOPS超えを達成しました。

NVIDIAが「NVLink」を開発した根本的な目的

AI浮動小数点演算性能が1.4 EFLOPS、メモリーサイズは14TBです。メモリ帯域幅は、驚異的な1.2PB/秒です。これは今この瞬間、全世界で発生しているインターネット通信量全体に相当します。世界中のインターネット通信量すべてがこれらのチップを通して処理されている計算になります。

そしてトランジスターが合計で130兆個、CPUコアが2,592個、非常に大きなネットワーキング機能を備えています。うまくできると良いのですが、どうでしょうか……。これら一つひとつがBlackwellを表していて、これらがConnect Xネットワーキングチップで、これらがNVLinkです。

これをNVLinkスパインに見せようと思ったのですが、不可能でした。そしてこの部分全体がHBMメモリです。14TBのHBMメモリです。これが私たちの目指しているものです。

そしてこれが、Blackwellシステムがもたらした奇跡です。ここにあるのがBlackwellダイです。これは史上最大サイズの単一チップですが、奇跡はそれだけではありません。Grace Blackwellシステムの紹介でした。

さてさて、椅子はありませんか。ちょっと座らせてもらえないでしょうか。ビールのミケロブ・ウルトラを1本もらえますか?

会場の「ミケロブ・ウルトラ・アリーナ」にいるのにビールがないなんて、NVIDIAに来てみたらGPUがないようなものですよね。

(手渡されたドリンクを飲む)

私たちがどんどん大きなモデルをトレーニングしようとすれば、膨大な量の計算が必要になります。そして、この推論ですが、以前は1つの推論でした。しかし、将来的にはAIがAI自身と対話するようになります。AIは思考し、自ら内省し、処理するようになるでしょう。

現在、トークンが生成されるペースは毎秒20個から30個で、これは誰もが文字を読み取れる速度とほぼ同じです。しかし、GPT-01、新しいGemini Pro、o1やo3などモデルの進歩により、これらのシステムは今や自己内省と自己対話が可能な状態になっています。

つまり思考しているのです。その結果、ご想像のとおり、トークンを取り込む速度は信じられないほど高くなります。

そうなると、トークン生成速度を大幅に引き上げる必要があります。同時にコストも大幅に引き下げなければなりません。そうすれば、サービスの品質は極めて高くなり、顧客のコストはこれまで通り低く抑えられ、AIは拡張し続けることができます。これこそが私たちがNVLinkを開発した根本的な目的であり、本当の理由です。

続きを読むには会員登録
(無料)が必要です。

会員登録していただくと、すべての記事が制限なく閲覧でき、
著者フォローや記事の保存機能など、便利な機能がご利用いただけます。

無料会員登録

会員の方はこちら

関連タグ:

この記事のスピーカー

同じログの記事

コミュニティ情報

Brand Topics

Brand Topics

  • NVIDIA創業者が語るAI開発の「これまで」と「これから」 GeForceなど最新のプロダクトも明かす

人気の記事

新着イベント

ログミーBusinessに
記事掲載しませんか?

イベント・インタビュー・対談 etc.

“編集しない編集”で、
スピーカーの「意図をそのまま」お届け!