生成AI時代のデータセンター:高性能GPUサーバーがもたらす電力課題とその解決策
近年の生成AIブームにより、データセンターの計算需要が急増し、高性能なAIモデルを支えるための専用ハードウェア(例:GPUやTPU)の導入が進んでいます。これにより、従来のサーバーに比べて大幅に高い電力消費が必要とされ、ラックあたりの電力容量が問題化しています。従来のラックは、一般的に数キロワットの電力供給を前提として設計されていましたが、生成AIを支える高密度な計算リソースが必要とされる現在では、10キロワット以上の電力を必要とするケースも増えています。このため、既存インフラの強化や、新たな電力管理ソリューションの導入が不可欠となり、効率的な冷却や電力供給の最適化が重要な課題となっています。
GPUサーバーの消費電力は?
一般的なGPUサーバーの消費電力は、搭載されるGPUの種類や数によって異なりますが、通常1台あたり2キロワットから5キロワット程度の電力を必要とします。
たとえば、NVIDIAの高性能GPUを搭載したサーバーでは、以下のような消費電力が一般的です:
-
NVIDIA A100(1枚あたり約250〜300ワット)
- 8枚搭載したサーバーでは、GPU部分だけで2〜2.4キロワット程度。
- その他のシステムコンポーネント(CPU、メモリ、ストレージなど)を含めると、全体で3〜4キロワット以上の消費電力が想定されます。
-
NVIDIA H100(1枚あたり約300〜350ワット)
- 8枚搭載した場合、GPU部分だけで2.4〜2.8キロワット程度。
- 全体の消費電力は4〜5キロワットに達する可能性があります。
これらの数値は一般的なケースであり、GPUの種類やサーバーの構成によってはさらに高くなることもあります。データセンターでは、このような高消費電力のサーバーを多数設置する場合、電力容量や冷却システムの強化が必要です。
GPUサーバー対応・大容量インテリジェントPDU
そのような背景もあり、例えば弊社が取り扱うRaritanからGPUサーバー対応のインテリジェント PDU「PX3-5878I2R-Q1」がリリースされています。「PX3-5878I2R-Q1」は 3U サイズの筐体で、三相 4 線 400V で60Aの容量を持ち、より多くのサーバーに高効率に電源供給が可能となっています。また、電力効率の最適化を図る上で必須ともいえる、アウトレット単位のリモート電力計測が可能です。
アウトレット単位の電力計測ができることで、GPUサーバー単位の利用電力の推移が可視化されることは非常に便利ですが、ではそのデータを具体的にどのように最適化につなげていけば良いのでしょうか?
電力容量の最適化を実現する方法
重要なGPUサーバーそれぞれの電力監視はとても重要です。しかし、それは電力容量の最適化を実現するものではありません。計測したデータを、いかにして最適化に向けて活用できるかが重要です。
RaritanのGPUサーバー対応インテリジェントPDUと連携し、電力供給の最適化につなげていけるソリューションとして今回ご紹介したいのは、Raritanとの親和性が抜群のSunbird DCIMソフトウェアです。
dcTrackの一つの独自機能であるオートパワーバジェット(自動電力設計値算出)機能では、最適なサーバーの電力設計値を自動算出します。従来、サーバーの電力設計値は手動で計算されていましたが、実際の消費電力は機器の稼働状況によって異なります。設計値は通常、余裕を持たせた値が設定されますが、実際の利用電力との乖離が大きくなるほど、余剰容量(=未使用の電力容量)が生じます。その結果、本来より有効に活用できたはずの電力容量が無駄になり、ラック内のサーバー配置密度が低下します。特に電力消費の大きいGPUサーバーでは、この影響は一層大きくなるでしょう。
最適な電力設計値を元に運用すると、ラック内スペース、サーバールーム・スペースをより有効活用できるようになります。そして結果的にサーバールーム内のインフラ設備追加投資コストを抑制することに繋がります。
Sunbird DCIMの製品概要ページはこちら
インテリジェントPDUのページはこちら
RaritanのインテリジェントラックPDUの製品情報はこちら(ラリタン・ジャパンのページにジャンプします)
より詳しい情報をお知りになられたい方はこちらからお気軽にお問い合わせください