FP4で1.44エクサFLOPS、13.5TBのHBM3e、3.2kmのNVLinkケーブルを1つの液体冷却ユニットに搭載しています。
Thanks to Tobias Mann
GTCで、Nvidiaはこれまでで最も強力なDGXサーバーを発表しました。この120kWのラックスケールシステムは、新しいBlackwellアクセラレータ72個をNVLinkで結び付け、1.4エクサFLOPS以上の性能を持つ大規模GPUを実現しています。
今週のGTCでは、このラックスケールシステムを詳しく見る機会がありました。Nvidiaによれば、このシステムは大規模なトレーニングワークロードや最大27兆パラメータのモデル推論をサポートできます。
NvidiaのDGX GB200 NVL72は、72個のBlackwellアクセラレータを
NVLinkで接続して1つの大きなGPUにするラックスケールシステム
DGX GB200 NVL72と名付けられたこのシステムは、昨年11月に発表されたGrace-Hopper Superchipベースのラックシステムの進化版で、GPUの数が2倍以上に増えています。
計算力の積み重ね
1.36トン(3,000ポンド)のラックシステムは、18の1Uコンピュートノードで構成され、それぞれに2つのNvidiaの2,700W Grace-Blackwell Superchips(GB200)が搭載されています。
ヒートスプレッダとコールドプレートを取り除いた
1U液体冷却シャーシ内の2つのGB200スーパーチップ
GB200に関する詳細は、発売日カバレッジでご確認いただけますが、簡単に言うと、この巨大な部品はNvidiaの900GBps NVLink-C2Cインターコネクトを使用して、72コアのGrace CPUと一対の高性能Blackwell GPUを結びつけています。
各Superchipは合計864GBのメモリ(480GBのLPDDR5xと384GBのHBM3e)を搭載しており、Nvidiaによれば、疎なFP4性能で40ペタFLOPSを達成できます。つまり、各コンピュートノードは80ペタFLOPSのAI計算能力を持ち、ラック全体では1.44エクサFLOPSの超低精度浮動小数点演算を行うことができます。
Grace-Blackwell Superchip、通称GB200は、
72コアのArm CPUと2つの1200W GPUを組み合わせた
システムの前面には、4つのInfiniBand NIC(シャーシのフェイスプレートの左と中央にある4つのQSFP-DDケージ)があります。これらは計算ネットワークを形成します。また、システムにはBlueField-3 DPUが装備されており、ストレージネットワークとの通信を担当します。
さらに、シャーシには2つの管理ポートに加えて、4つの小型NVMeストレージキャディが搭載されています。
NVL72の18個のコンピュートノードには、
標準で4つのConnect-X InfiniBand NICとBlueField-3 DPUが付属
2つのGB200 Superchipsと5つのNICを搭載する各ノードは、5.4kWから5.7kWの電力を消費すると推定しています。この熱の大部分は、直接チップ冷却(DTC)の液体冷却で処理されます。GTCでNvidiaが披露したDGXシステムにはコールドプレートがありませんでしたが、Lenovoなどのパートナー企業のプロトタイプシステムを見ることができました。
Nvidiaが展示していたGB200システムにはコールドプレートが取り付けられていなかったが、
このLenovoのプロトタイプは、製品化された場合の外観を示す。
ただし、HPE CrayやLenovoのNeptuneラインのようなすべてを液体冷却するHPC向けノードとは異なり、NvidiaはNICやシステムストレージなどの低消費電力の周辺機器を従来の40mmファンで冷却することを選択しました。
すべてを結びつける
キーノートで、CEOのJensen Huang はNVL72を一つの大きなGPUとして説明しました。これは、ラックの中央に配置された9つのNVLinkスイッチが18の高密度コンピュートノードを互いに接続しているからです。
NVL72のコンピュートノードの間には9つのNVLinkスイッチがあり、
各GPUに1.8TBpsの双方向帯域幅を提供
この技術は、NvidiaのHGXノードが8つのGPUを一体として動作させるために使用するものと同じです。ただし、Blackwell HGXのキャリアボードにNVLinkスイッチを組み込むのではなく、NVL72では独立したアプライアンスとして提供されています。
NVLinkスイッチは、従来NvidiaのSXMキャリアボードに統合。
この写真に示されているのは、Blackwell HGXボード。
これらのスイッチアプライアンスの内部には、2つのNvidiaのNVLink 7.2T ASICがあり、合計144の100 GBpsリンクを提供します。ラックあたり9つのNVLinkスイッチがあるため、各GPUに対して1.8 TBps(18リンク)の双方向帯域幅を提供します。
NVL72の9つのスイッチスレッドそれぞれに搭載されている
2つの第5世代NVLink ASIC
NVLinkスイッチとコンピュートスレッドは、3.2km以上の銅ケーブルを使用してブラインドメイトバックプレーンに接続されます。ラックの背面を覗くと、GPUを一体として機能させるための大量のケーブル束が見えます。
ラックのNVLinkバックプレーンを形成する大量のケーブル
光ファイバーケーブルではなく銅ケーブルを使用する決定は、特に話している帯域幅の量を考えると奇妙に思えるかもしれませんが、光ファイバーをサポートするために必要な全てのリタイマーやトランシーバーが、システムの消費電力にさらに20kWを追加することになります。
これが、ケーブルの長さを最小限に抑えるために、NVLinkスイッチスレッドが計算ノードの2つのバンクの間に配置されている理由かもしれません。
電力、冷却、および管理
ラックの最上部には、52ポートのSpectrumスイッチが2つあります。これらは48のギガビットRJ45ポートと4つのQSFP28 100Gbps集約ポートを備えています。これらのスイッチは、システムを構成する各種コンピュートノード、NVLinkスイッチスレッド、およびパワーシェルフからの管理とテレメトリーストリーミングに使用されます。
NVL72の上部には、スイッチが2つと6つのパワーシェルフのうち3つ
これらのスイッチのすぐ下には、前面から見える6つのパワーシェルフの最初の3つがあり、3つはラックの上部に、残りの3つは下部にあります。これらは、120kWのラックに電力を供給する役割を担っています。
私たちの推定によると、6つの415V、60A PSUがあれば十分です。ただし、Nvidiaやそのハードウェアパートナーは設計にある程度の冗長性を組み込んでいると考えられ、これらは60A以上で動作している可能性があります。Nvidiaにパワーシェルフの詳細を尋ねており、分かり次第お知らせします。
電力はハイパースケールスタイルのDCバスバーによってラックの背面を通じて供給されます。よく見ると、ラックの中央を走るバスバーが見えます。
CEOのJensen Huangによると、
冷却液は1秒あたり2リットルの速度でラックに送り込まれる
もちろん、120kWの計算を冷却するのは容易ではありません。しかし、チップが熱くなり、計算需要が増える中、Digital RealtyやEquinixを含む多くのデータセンターが高密度のHPCやAIの展開をサポートするようになってきました。
NvidiaのNVL72の場合、計算部分とNVLinkスイッチの両方が液体冷却されています。ファン氏によると、冷却液は25℃で1秒あたり2リットルの速度でラックに入り、20度高くなって出ていきます。
スケールアウト
DGX GB200 NVL72の13.5TBのHBM3eと1.44エクサFLOPSのFP4性能で不足する場合、8台をネットワークで接続し、576個のGPUを持つ大規模なDGX Superpodを形成できます。
8つのDGX NVL72ラックをつなげて、Nvidiaの液体冷却DGX GB200 Superpodを形成できる
Comments