GPUメモリー・クラスタおよびメモリーFabric

GPUメモリー・クラスタを使用して、高パフォーマンス・コンピューティング(HPC)、GPUまたは最適化されたインスタンスをグループ化、監視および管理し、より柔軟性の高い高パフォーマンス・クラスタを実行できます。各GPUメモリー・クラスタは、単一のGPUメモリー・ファブリック(GPU間の通信を可能にするインフラストラクチャ)上に構築されます。GPUメモリー・クラスタは、コンピュート・クラスタではなく、コンピュート・クラスタと組み合せて使用します。

重要

GPUメモリー・クラスタおよびGPUメモリー・ファブリックを使用するには、Dedicated Capacityのお客様である必要があります。ホスト容量を切り替えるには、サポート・リクエスト(SR)を開いてOracle Supportに連絡してください。

GPUメモリー・クラスタでは、次のことができます。

一連のGPUからメモリー・クラスタを作成します。
たとえば、NVIDIA NVLink 72では、それぞれ最大18個のコンピュート・ホストがサポートされます。
多数のメモリークラスタを、大規模なネットワークにまたがる1つの大きなクラスタに結合します。GPUメモリー・クラスタは、ラック・レベルでスケーリングし、稼働できるように設計されていますが、コンピュート・クラスタでは稼働中にスケーリングできます。
- GPUメモリー・クラスタは、ホスト間/GPUとGPU間の通信を容易にします。
- コンピュート・クラスタは、RoCEまたはInfiniBandを介して、異なるGPUメモリー・ファブリックのホスト/GPU間の通信を容易にします。
すべてのGPUメモリー・クラスタを表示し、どのように接続されているかを確認します。
ListComputeGpuMemoryClustersおよびGPUメモリー・クラスタおよびメモリーFabricの確認を参照してください。
各メモリー・クラスタのパフォーマンス・メトリックを追跡します。
必要に応じてGPUを追加または削除します。

サポートされているコンピュート・シェイプは、BM.GPU.GB200.4およびBM.GPU.GB300.4です。

Oracle Cloud Infrastructureドキュメント

GPUメモリー・クラスタおよびメモリーFabric