GPUメモリー・クラスタおよびメモリーFabric

GPUメモリー・クラスタを使用して、高パフォーマンス・コンピューティング(HPC)、GPUまたは最適化されたインスタンスをグループ化、監視および管理し、より柔軟性の高い高パフォーマンス・クラスタを実行できます。各GPUメモリー・クラスタは、単一のGPUメモリー・ファブリック(GPU間の通信を可能にするインフラストラクチャ)上に構築されます。GPUメモリー・クラスタは、コンピュート・クラスタではなく、コンピュート・クラスタと組み合せて使用します。

重要

GPUメモリー・クラスタおよびGPUメモリー・ファブリックを使用するには、Dedicated Capacityのお客様である必要があります。ホスト容量を切り替えるには、サポート・リクエスト(SR)を開いてOracle Supportに連絡してください。
GPUメモリー・クラスタでは、次のことができます。
  • 一連のGPUからメモリー・クラスタを作成します。

    たとえば、NVIDIA NVLink 72では、それぞれ最大18個のコンピュート・ホストがサポートされます。

  • 多数のメモリークラスタを、大規模なネットワークにまたがる1つの大きなクラスタに結合します。GPUメモリー・クラスタは、ラック・レベルでスケーリングし、稼働できるように設計されていますが、コンピュート・クラスタでは稼働中にスケーリングできます。
    • GPUメモリー・クラスタは、ホスト間/GPUとGPU間の通信を容易にします。
    • コンピュート・クラスタは、RoCEまたはInfiniBandを介して、異なるGPUメモリー・ファブリックのホスト/GPU間の通信を容易にします。
  • すべてのGPUメモリー・クラスタを表示し、どのように接続されているかを確認します。

    ListComputeGpuMemoryClustersおよびGPUメモリー・クラスタおよびメモリーFabricの確認を参照してください。

  • 各メモリー・クラスタのパフォーマンス・メトリックを追跡します。
  • 必要に応じてGPUを追加または削除します。

サポートされているコンピュート・シェイプは、BM.GPU.GB200.4およびBM.GPU.GB300.4です。