シリーズ・コラム(第5回:最終回)LIQID CDI性能とTCO低減効果

シリーズ・コラム最終回、LIQID CDI 性能とTCOの低減効果
過去4回に渡ってLiqid CDI製品および製品技術を紹介し、また代表的なユースケースを通じてリアルな製品価値を確認いただいた。この最終回ではこれまで触れてこなかったLiqid CDIの性能および導入の経済効果について検証してみたい。
まず最初にLiqid CDIを導入した場合のGPU性能への影響を見てみよう。
Liqid CDIはGPU処理性能に悪影響しない
下図は実際にLiqid社で行ったベンチマークテストで用いられた構成である。点線の左側が従来のサーバー構成すなわち汎用サーバーの内蔵PCIeスロットにH100を導入した構成、右側の構成はH100をサーバーの内蔵スロットには入れずLiqid CDIの構成部材である拡張シャーシEX-4410のPCIeスロットに導入した構成である。
従来のサーバー構成 : NVIDIA H100 GPUs (PCIe Gen5) + Dell PowerEdge R760 (同)
CDIシステム構成 : NVIDIA H100 GPUs (PCIe Gen5) + Dell PowerEdge R760 (同) + Liqid EX-4410 (PCIe Gen4)
まず上の二つの構成で二種類のベンチマークを行った。BERT_Large Squad FP16とResnet50 Training(RESNET50 AMP)である。テスト結果はGPUの実装枚数の違い(H100 x 1, x2)の二つの場合で採取した。その結果を下のグラフが示しているが(右側のグリーンがLiqid CDI)、H100 x 1の場合でもx2の場合でも性能の差は無視できる程度であると言える。因みに、このベンチマークで用いた拡張シャーシ(EX-4410)はPCIe Gen4モデルである。
Liqid CDIはGPU性能のスケーラビリティを維持する
GPUをサーバーの内蔵スロットから拡張シャーシに移設したCDI構成でも性能への影響は無視できる程度であることがわかったので、今度は拡張シャーシに導入するGPUの枚数を増やしていった場合の性能への影響を見たい。
冒頭のテスト・システム構成図が示す通り、Liqid CDIのトポロジーではサーバーと拡張シャーシをPCIeファブリックスイッチを介して接続していることから、スイッチ・レイテンシーのペナルティが顕在化しないかを見るためでもある。拡張シャーシが1台なのでGPU枚数の上限は10枚となる。蛇足だが、一般的なGPUサーバーの最大搭載枚数が8枚であることを考えるとGPU密度(サーバー1台あたりのGPU枚数)は25%増しになる。
H100をx1, x2, x,4, x8, x10のそれぞれの構成で測定した結果を以下のグラフが示している。完全に線形とは言えないが優秀なスケーラビリティを維持しているのではではないだろうか。
LIQID CDIはTCOの低減に貢献する
性能についてはある程度安心できる結果を得られたと思うので、次にCDI導入がもたらす経済効果すなわちTCOの低減効果を見てみたい。蛇足だが、ここでのTCOとはハードウェア、ソフトウェア、ネットワーク機器等の調達コストおよびシステム運用に係る電力、スペース、運用のためのマン・コストなどを指す。
今度の比較は30枚のGPUをGPUサーバーに実装する場合と同数のGPUをLiqid CDIに導入する場合との対比である(恣意を明かすと、拡張シャーシ1台当りの最大GPU枚数が10なのでその倍数で揃えた)。
各ユーザー毎に使用しているハードウェア・ソフトウェアの差異があるのでここでは低減効果の具体的な定量化は避け、以下のポイントにおける比較論理だけ提示することにしたい。自身のケースにおける具体的なTCO低減効果を算出したい場合は、Liqid社が開発したTCOカリキュレーターというツールがあり、そちらで計算いただけるので是非ご連絡いただきたい。
- GPUは同モデルを同数搭載する
- サーバー台数は従来構成ではGPUサーバー4台だがCDIではエッジサーバー1台となりサーバーコストは大きく低下する一方、CDIシステムのコストが加算される
- サーバー台数が1/4になることから稼働するソフトウェアのライセンス費用等が同様に低減される(CPU数、コア数等で課金される場合)
- 従来構成はサーバー・クラスタリング用のInfinibandやEthernetなど高速のインターコネクト機器を必要としその機器コスト・運用コストが加算される
- 従来構成にはインターコネクトによる通信ワークロードによるオーバーヘッドがあり、CDIに比べてシステム全体でのスループットが低下する
- CDIにはPeer to PeerというGPU間通信のバイバス機能があり処理性能向上に寄与する
- CDIの拡張シャーシ本体にはGPUサーバーのように高い電力を消費するCPUやDRAMなどのコンポーネントは少ないため全体の消費電力は大幅に低下する
以上、限られた紙面であったため、性能・TCO検証に必要なデータ・情報の質・量いずれの点でも不十分であったことをお詫びする。関心いただいた部分があれば是非追加あるいは補足をお求めいただきたい。
五回に渡る連載コラムに最後までおつきいただき心底より感謝申し上げるとともに、この駄文がLiqid CDIの導入検討の一助になれば望外の喜びである。
(MF)