top of page
  • Guest

【AIデータセンタ】NVIDIA、データセンターの性能とエネルギー効率を向上させる革新をHot Chipsで発表へ(24/8/23、NVIDIA webより)

同カンファレンスにおいて、NVIDIAのエンジニアは4つの講演を通じて、NVIDIA Blackwellプラットフォームに関する詳細、新しい液冷技術の研究、およびチップ設計を支援するAIエージェントについて紹介予定である。

2024年8月23日  Dave Salvator

 

業界および学界のプロセッサーおよびシステムアーキテクト向けのディープテクノロジー会議が、1兆ドル規模のデータセンターコンピューティング市場における重要なフォーラムとして定着している。

 

来週開催の「Hot Chips 2024」では、NVIDIAの上級エンジニアが、NVIDIA Blackwellプラットフォームを支える最新の技術進歩や、データセンター向けの液冷技術、AIエージェントを用いたチップ設計の研究について発表する予定である。

 

発表内容は以下の通り:

 

- NVIDIA Blackwellは、複数のチップ、システム、NVIDIA CUDAソフトウェアを統合し、次世代のAIを様々な用途、産業、国にわたって実現する。

- NVIDIA GB200 NVL72は、72個のBlackwell GPUと36個のGrace CPUを接続するマルチノード液冷ラックスケールソリューションであり、AIシステム設計の新たな基準を打ち立てる

- NVLinkインターコネクト技術は、GPU間の全方位通信を可能にし、生成AIにおいて記録的な高スループットと低遅延の推論を実現する

- NVIDIA Quasar量子化システムは、物理限界を押し広げてAIコンピューティングを加速する。

- NVIDIAの研究者は、AIプロセッサの設計を支援するAIモデルを開発している。

 

NVIDIA Blackwellに関する発表は、8月26日月曜日に行われ、Blackwellシリコン上で実行される生成AIモデルの新しいアーキテクチャ的な詳細や例も紹介される予定である。

 

これに先立ち、8月25日日曜日には3つのチュートリアルが開催され、ハイブリッド液冷ソリューションがデータセンターのよりエネルギー効率の高いインフラへの移行を支援する方法や、AIモデル(大規模言語モデル(LLM)を含むエージェント)が次世代プロセッサの設計にどのように役立つかが取り上げられる。

 

これらのプレゼンテーションは、NVIDIAのエンジニアがデータセンターコンピューティングと設計のあらゆる分野で前例のないパフォーマンス、効率、最適化を提供するためにどのように革新を続けているかを示している。

 

Blackwellに備えよ

 

NVIDIA Blackwellは、究極のフルスタックコンピューティングチャレンジである。これは、Blackwell GPU、Grace CPU、BlueFieldデータ処理ユニット、ConnectXネットワークインターフェースカード、NVLinkスイッチ、Spectrum Ethernetスイッチ、およびQuantum InfiniBandスイッチを含む複数のNVIDIAチップで構成される。


 

NVIDIAのアーキテクチャディレクターであるAjay TirumalaとRaymond Wongが、プラットフォームの初公開を行い、これらの技術がどのように協働してAIおよび高速コンピューティングの性能を新たな標準に引き上げ、エネルギー効率を向上させるかを説明する予定である。

 

マルチノードのNVIDIA GB200 NVL72ソリューションは、その完璧な例である。LLM推論には低遅延、高スループットのトークン生成が必要であり、GB200 NVL72は統合システムとして最大30倍の高速推論を提供し、リアルタイムでの兆パラメータモデルの実行を可能にする。

 

TirumalaとWongは、NVIDIA Quasar量子化システムについても議論し、アルゴリズムの革新、NVIDIAソフトウェアライブラリおよびツール、そしてBlackwellの第二世代トランスフォーマーエンジンを統合し、低精度モデルで高精度を実現する方法について説明する予定である。また、LLMおよび視覚生成AIを使用した具体例も紹介する。

 

データセンターの冷却

 

従来の空冷データセンターのハム音は、より効率的で持続可能なハイブリッド冷却ソリューション(空冷と液冷の組み合わせ)を用いることで過去のものになるかもしれない。

 

液冷技術は、空冷よりもシステムから熱を効率的に移動させ、大規模なワークロードを処理している間でもコンピューティングシステムを冷却するのを容易にする。液冷装置は空冷システムよりも場所を取らず、消費電力も少なく済むため、データセンターはより多くのサーバーラックを設置し、それにより施設内でのコンピューティングパワーを増強することが可能となる。

 

NVIDIAのデータセンター冷却およびインフラストラクチャディレクターであるAli Heydariが、ハイブリッド冷却データセンター向けのいくつかの設計を発表する予定である。

 

いくつかの設計は、既存の空冷データセンターを液冷ユニットで改造し、既存のラックに液冷機能を追加するための迅速かつ簡単なソリューションを提供する。また、他の設計は、冷却分配ユニットを使用したdirect-to-chip液冷や、サーバーを完全に液浸冷却タンクに沈める方法を取り入れることを提案している。これらのオプションは、初期投資が大きくなるものの、エネルギー消費と運用コストの両方で大幅な節約をもたらす。

 

Heydariは、米国エネルギー省のプログラム「COOLERCHIPS」の一環として進められている、先進的なデータセンター冷却技術の開発に関する彼のチームの作業についても共有する予定である。プロジェクトの一環として、チームはNVIDIA Omniverseプラットフォームを使用して、エネルギー消費と冷却効率をモデル化し、データセンター設計を最適化するための物理インフォームドデジタルツインを作成している。

 

AIエージェントがプロセッサ設計を支援

 

半導体設計は、微細なスケールでの巨大な挑戦である。最先端のプロセッサを開発するエンジニアは、数インチ幅のシリコン上にできるだけ多くのコンピューティングパワーを詰め込むために、物理的に可能な限界を試す。

 

AIモデルは、設計品質と生産性の向上、手作業プロセスの効率化、そして一部の時間を要するタスクの自動化を通じて、彼らの作業を支援している。これらのモデルには、エンジニアが迅速に設計を分析し改善するための予測および最適化ツールが含まれており、またエンジニアが質問に答えたり、コードを生成したり、設計問題をデバッグしたりするのを支援する大規模言語モデル(LLM)も含まれている。

 

NVIDIAの設計自動化研究ディレクターであるMark Renが、これらのモデルとその用途についての概要を提供する予定である。次のセッションでは、チップ設計におけるエージェントベースのAIシステムに焦点を当てる。

 

LLMによって駆動されるAIエージェントは、自律的にタスクを完了するように指示されることができ、様々な産業において広範な応用が可能である。マイクロプロセッサ設計において、NVIDIAの研究者は、カスタマイズされた回路設計ツールを用いて推論し、行動を起こし、経験豊富な設計者と対話し、人間とエージェントの経験データベースから学ぶことができるエージェントベースのシステムを開発している。

 

NVIDIAの専門家たちは、この技術を開発するだけでなく、実際に利用している。Renは、タイミングレポートの分析、セルクラスターの最適化プロセス、コード生成においてAIエージェントをどのように活用できるかの例を共有する予定である。セルクラスターの最適化作業は、最近、第一回IEEE国際ワークショップで最優秀論文賞を受賞している。

 

 

閲覧数:0回0件のコメント

Comentarios


bottom of page