生成AIブームとデータセンターの消費電力増加問題 ~物理面とシステム面からの改善策
先日11月半ばに、NVIDIAがAIモデルトレーニング用の最新ハイエンドGPU「H200」を発表したばかりですが、近年の生成AI(Generative AI)ブームは、ビジネスや一般社会に著しい利便性をもたらすとされ、まだまだ続く見込みです。しかし、一方で生成AIはトレーニングに膨大な計算リソースと時間を必要とし、生成AIモデルのトレーニングを行うデータセンターはより大規模になる傾向があります。これらの要素から、今後ますます消費電力が増加する可能性が指摘されており、これは結果としてデータセンターの課題に直結します。
特に近年は脱炭素化が求められている中、この消費電力増加問題は非常に深刻です。しかし、それ以上に深刻なのは電力不足によりデータセンターの正常な運用が維持できなくなるかもしれないという懸念です。実際に昨年、アメリカ・バージニア州のデータセンター・アレイ(Data Center Alley)では電力不足寸前にまで陥ったとのニュースがありました。
このような状況下で、今後ますます大量の計算リソースが必要なAIトレーニングが進む中、エネルギー効率の向上や再生可能エネルギーの活用など、持続可能なアプローチが求められます。データセンター業界は、技術と環境への影響をバランスさせつつ、将来的な課題に備える必要があります。
空調最適化による消費電力削減 ~物理面からのアプローチ
こうした消費電力の増加に対処するためには、様々な省エネルギー技術を活用し、データセンターインフラを最適化していくことが求められます。省エネ技術にはまず、ハードウェア自体の省エネ設計や、アイルコンテインメントなどのサーバールームの空調レイアウト設計の最適化、あるいはリアドア冷却や液浸冷却などのより高効率な冷却装置を利用するなど、物理面からのアプローチがあります。弊社DC ASIAでも、これらの課題に対処するいくつかのソリューションを提供しています。
DCIMツール導入による消費電力削減 ~システム面からのアプローチ
もうひとつの省エネ化アプローチは、設備の監視・管理をより正確かつインテリジェントに行うことで、電力容量オーバーによる予期せぬシステムダウンを防ぎつつ、電力効率の高いデータセンターインフラ環境を維持するDCIMツールの導入です。
例えば、H200システムは、多くの電力、冷却、スペース、およびデータ/電力ポートを消費しますが、複数のデータソースを使用してH200を展開する能力があるかどうかを計算しようとすると、手動の数学と推定は時間がかかり、人為的ミスの可能性が高まり、システムの可用性維持の観点で非常に危険です。
逆に定格値ベースでの電源設備設計をすれば、予期せぬダウンのリスクは減りますが、その反面、インフラ設備は非効率なものとなってしまいます。そこで、リアルタイムな電力計測で取得したデータをDCIMのダッシュボードやキャパシティ管理機能などの機能を活用し、人的リソースを掛けずに電力設計を最適化することが重要です。
また、このハイエンドシステムは高温の排熱を出すため、ラック周辺の温度管理も重要となります。しかし、ここでも安全を見て過冷却を行うようでは無駄に消費電力を増やしてしまう結果に繋がります。例えば温湿度センサーを導入しリアルタイムに計測し、ASHRAE基準をベースに熱だまりと過冷却がないかを可視化することで、この問題に対処できます。
具体的な技術についてはここでは割愛しますが、今後のデータセンター環境には物理面からの改善とともにDCIMツールを活用した最適化がさらに重要になってくることは間違いないと考えます。詳細をお聞きになりたい方はお気軽にお問い合わせください。