Googleは、Nvidiaよりも高速でエネルギー効率の高いAIスーパーコンピューターの詳細を明らかにします

Googleは4月4日火曜日に、人工知能モデルのトレーニングに使用されるスーパーコンピューターに関する新しい詳細を発表し、Nvidia Corpの同様のシステムよりも高速で電力効率が高いと述べています。

Googleは、Tensor Processing Unit(TPU)と呼ばれる独自のカスタムチップを設計しました。このチップは、モデルを介してデータを配信して、人間のようなテキストで質問に答えたり、画像を生成したりするなどのタスクに役立つようにするプロセスである人工知能トレーニングに関する同社の作業の90%以上に使用されています。

グーグルのTPUは現在第4世代です。Googleは火曜日に、Google自身が開発した光スイッチを使用して、個々のマシンの接続を支援するために4,000を超えるチップをスーパーコンピューターに接続する方法を概説する科学論文を発表しました。

GoogleのBardやOpenAIのChatGPTなどのテクノロジーを可能にする大規模な言語モデルのサイズが爆発的に増加したため、これらの接続を増やすことは、人工知能スーパーコンピューターを構築する企業間の主要な競争ポイントになっています。

モデルは数千のチップに分割される必要があり、モデルをトレーニングするために数週間以上連携する必要がありました。GoogleのPaLMモデル(これまでで公開されている最大の言語モデル)は、50日間にわたって2台の4,000チップスーパーコンピューター間で分割することによってトレーニングされました。

Googleによると、同社のスーパーコンピューターを使用すると、チップ間の接続を簡単に再構成できるため、問題を回避し、パフォーマンスの向上を調整することができます。

「回路切り替えにより、故障したコンポーネントを簡単に回避できます」と、GoogleフェローのNorm JouppiとGoogleの著名なエンジニアであるDavid Pattersonは、システムに関するブログ投稿で述べています。「この柔軟性により、スーパーコンピューターの相互接続トポロジを変更して、ML(機械学習)モデルのパフォーマンスを加速することもできます。」

Googleは現在、スーパーコンピューターの詳細のみをリリースしていますが、システムは2020年からオクラホマ州メイズ郡のデータセンターで社内でオンラインになっています。Googleによると、スタートアップのMidjourneyは、このシステムを使用してモデルをトレーニングし、数語のテキストを与えられた後に新鮮な画像を生成します。

論文の中で、Googleは、同じサイズのシステムの場合、そのチップは、第4世代TPUと同時に流通しているNvidia A100チップに基づくシステムよりも最大1.7倍高速で、電力効率が高いと述べています。

Nvidiaの広報担当者は、ロイターからコメントを求められたとき、コメントを拒否した。

Googleによると、H100はGoogleのチップの後に市場に登場し、新しいテクノロジーで作られているため、同社は第4世代をNvidiaの現在のフラッグシップチップであるH100と比較していません。 

Googleは、Nvidia H100と競合する新しいTPUに取り組んでいる可能性があることを示唆したが、詳細は明らかにせず、JouppiはロイターにGoogleには「健全な将来のチップ開発パイプライン」があると語った。