Elastic Fabric Adapter 完全ガイド
高性能コンピューティングを加速する次世代ネットワーク技術
| 項目 | 従来のネットワーキング | EFA |
|---|---|---|
| レイテンシ | 比較的高い(TCP/IPスタック経由) | 超低レイテンシ(バイパス通信) |
| スループット | 標準的 | 最大100Gbps |
| CPU使用率 | ネットワーク処理でCPU消費 | CPUオフロード(CPU負荷軽減) |
| 適用場面 | 一般的なアプリケーション | HPC、機械学習、分散処理 |
マイクロ秒レベルの通信遅延で、リアルタイム処理を実現
最大100Gbpsの帯域幅で大容量データ転送も高速化
ネットワーク処理をオフロードし、CPUリソースを節約
大規模クラスターでも安定したパフォーマンスを維持
※実際の性能向上は、ワークロードや設定により異なります
分散学習における大規模モデルのパラメータ同期や、勾配計算の高速化。PyTorchやTensorFlowでの分散トレーニングに最適。
気象シミュレーション、バイオインフォマティクス、物理計算など、大規模並列計算処理で真価を発揮。
リスク計算、オプション価格計算、アルゴリズム取引など、低レイテンシが要求される金融計算。
ゲーム分析、リアルタイム画像処理、ストリーミングデータ解析など、即座の応答が必要な用途。
C5n、P3dn、P4dなどのEFA対応インスタンスタイプを選択し、プレイスメントグループを「cluster」に設定してインスタンスを起動します。
EFA通信用のポート(通常は全ポート)を同一セキュリティグループ内で許可する設定を追加します。
AWS提供のEFAドライバーとライブラリ(libfabric)をインスタンスにインストールします。
MPIやNVIDIA Collective Communications Library (NCCL)などを使用して、EFAを利用するようアプリケーションを設定します。
EFAが正常に動作しているか確認し、性能テストを実行してベンチマークを取得します。
機械学習の分散学習
、
大規模科学計算
、
リアルタイム金融計算
など、
低レイテンシと高スループットが重要
なワークロードでEFAは真価を発揮します。
設定は少し複雑ですが、得られる性能向上は劇的です。まずは小規模な検証環境から始めて、
段階的にプロダクション環境へ適用することをお勧めします。
Created by SSuzuki1063
AWS SAP Learning Resources