米NVIDIAは現地時間の3月21日に、多様なジェネレーティブAIアプリケーション向けに最適化された、4つの推論プラットフォームを発表した。
これらのプラットフォームは、AIビデオ、画像生成、大規模言語モデル(LLM)の展開、レコメンダーの推論といった、需要の高いワークロード向けに最適化されている。
各プラットフォームには、特定のジェネレーティブAI推論ワークロード向けに最適化されたNVIDIA GPUと専用ソフトウェアが含まれているほか、AIビデオ用のNVIDIA L4はAIを活用することでCPUの120倍に達するビデオパフォーマンスを提供するとともに、エネルギー効率を99%向上させる。また、ほぼすべてのワークロードに対応するユニバーサルGPUとして機能し、強力なビデオのデコードおよびトランスコーディング機能、ビデオストリーミング、拡張現実、ジェネレーティブAIモデルなどを提供する。
画像生成用のNVIDIA L40は、グラフィックスおよびAI対応の2D、ビデオ、3D画像生成用に最適化されている。L40プラットフォームは、データセンターにてメタバースアプリケーションを構築・運用するためのプラットフォームであるNVIDIA Omniverseのエンジンとして機能し、前世代と比較して7倍に達するStable Diffusionにおける推論パフォーマンスと、12倍のOmniverseパフォーマンスを提供する。
大規模言語モデル展開用の NVIDIA H100 NVLは、ChatGPTのようなLLMを大規模に展開するのに理想的であり、Transformer Engineによるアクセラレーション、GPT-3において前世代のA100と比較して最大12倍高速な推論パフォーマンスを、データセンター規模で提供できる。
レコメンダーモデル用のNVIDIA Grace Hopperは、グラフレコメンダーモデル、ベクトルデータベース、グラフニューラルネットワークに最適で、CPUとGPU間の毎秒900GBに達するNVLink-C2C接続によって、PCIe Gen 5と比較して7倍高速なデータ転送とクエリ提供が可能となっている。
プラットフォームのソフトウェアレイヤーは、NVIDIA TensorRT(高性能ディープラーニング推論用ソフトウェア開発キット)と、NVIDIA Triton Inference Server(モデル展開の標準化を支援するオープンソースの推論サービスソフトウェア)を含む、NVIDIA AI Enterpriseソフトウェアスイートを搭載する。
NVIDIA L4 GPUは、Google Cloud Platformのプライベートプレビューで利用でき、Advantech、ASUS、Atos、Cisco、Dell Technologies、富士通、GIGABYTE、Hewlett Packard Enterprise、Lenovo、QCT、Supermicroといった30を超えるコンピュータメーカーのグローバルネットワークから提供される。
NVIDIA L40 GPUは、ASUS、Dell Technologies、GIGABYTE、Lenovo、Supermicroといった主要なシステムビルダーから入手可能で、パートナープラットフォームの数は年間を通じて拡大する予定となっている。
Grace Hopper Superchipは、現在サンプル提供中であり、H100 NVL GPUと同様に2023年後半の量産を予定する。
NVIDIA AI Enterpriseは現在、主要なクラウドマーケットプレイス、および数多くのシステムプロバイダーやパートナーから入手できる。NVIDIA AI Enterpriseを利用する企業には、NVIDIA Triton Inference Server、TensorRT、および50超の事前トレーニング済みモデルとフレームワークについて、NVIDIAエンタープライズサポート、定期的なセキュリティレビュー、安定したAPIが提供される。
ジェネレーティブAI向けのNVIDIA推論プラットフォームを試すためのハンズオンラボは、NVIDIA LaunchPadにて無料で利用可能で、サポートチャットボットのトレーニングと展開、エンドツーエンドのAIワークロード展開、H100による言語モデルの調整と展開、NVIDIA Tritonを使用した不正検出モデルの展開が含まれている。
AIビデオ、画像生成、大規模言語モデルの展開などを最適化
今回、発表された推論プラットフォームは、同日に発売されたNVIDIA L4 TensorコアGPUとNVIDIA H100 NVL GPUを含む、最新のNVIDIA Ada、Hopper、Grace Hopperプロセッサと、NVIDIAのフルスタック推論ソフトウェアを組み合わせており、新しいサービスと洞察を提供可能な、AIを活用したドメイン特有のアプリケーションを迅速に構築できるようになる。これらのプラットフォームは、AIビデオ、画像生成、大規模言語モデル(LLM)の展開、レコメンダーの推論といった、需要の高いワークロード向けに最適化されている。
各プラットフォームには、特定のジェネレーティブAI推論ワークロード向けに最適化されたNVIDIA GPUと専用ソフトウェアが含まれているほか、AIビデオ用のNVIDIA L4はAIを活用することでCPUの120倍に達するビデオパフォーマンスを提供するとともに、エネルギー効率を99%向上させる。また、ほぼすべてのワークロードに対応するユニバーサルGPUとして機能し、強力なビデオのデコードおよびトランスコーディング機能、ビデオストリーミング、拡張現実、ジェネレーティブAIモデルなどを提供する。
画像生成用のNVIDIA L40は、グラフィックスおよびAI対応の2D、ビデオ、3D画像生成用に最適化されている。L40プラットフォームは、データセンターにてメタバースアプリケーションを構築・運用するためのプラットフォームであるNVIDIA Omniverseのエンジンとして機能し、前世代と比較して7倍に達するStable Diffusionにおける推論パフォーマンスと、12倍のOmniverseパフォーマンスを提供する。
大規模言語モデル展開用の NVIDIA H100 NVLは、ChatGPTのようなLLMを大規模に展開するのに理想的であり、Transformer Engineによるアクセラレーション、GPT-3において前世代のA100と比較して最大12倍高速な推論パフォーマンスを、データセンター規模で提供できる。
レコメンダーモデル用のNVIDIA Grace Hopperは、グラフレコメンダーモデル、ベクトルデータベース、グラフニューラルネットワークに最適で、CPUとGPU間の毎秒900GBに達するNVLink-C2C接続によって、PCIe Gen 5と比較して7倍高速なデータ転送とクエリ提供が可能となっている。
プラットフォームのソフトウェアレイヤーは、NVIDIA TensorRT(高性能ディープラーニング推論用ソフトウェア開発キット)と、NVIDIA Triton Inference Server(モデル展開の標準化を支援するオープンソースの推論サービスソフトウェア)を含む、NVIDIA AI Enterpriseソフトウェアスイートを搭載する。
NVIDIA L4 GPUは、Google Cloud Platformのプライベートプレビューで利用でき、Advantech、ASUS、Atos、Cisco、Dell Technologies、富士通、GIGABYTE、Hewlett Packard Enterprise、Lenovo、QCT、Supermicroといった30を超えるコンピュータメーカーのグローバルネットワークから提供される。
NVIDIA L40 GPUは、ASUS、Dell Technologies、GIGABYTE、Lenovo、Supermicroといった主要なシステムビルダーから入手可能で、パートナープラットフォームの数は年間を通じて拡大する予定となっている。
Grace Hopper Superchipは、現在サンプル提供中であり、H100 NVL GPUと同様に2023年後半の量産を予定する。
NVIDIA AI Enterpriseは現在、主要なクラウドマーケットプレイス、および数多くのシステムプロバイダーやパートナーから入手できる。NVIDIA AI Enterpriseを利用する企業には、NVIDIA Triton Inference Server、TensorRT、および50超の事前トレーニング済みモデルとフレームワークについて、NVIDIAエンタープライズサポート、定期的なセキュリティレビュー、安定したAPIが提供される。
ジェネレーティブAI向けのNVIDIA推論プラットフォームを試すためのハンズオンラボは、NVIDIA LaunchPadにて無料で利用可能で、サポートチャットボットのトレーニングと展開、エンドツーエンドのAIワークロード展開、H100による言語モデルの調整と展開、NVIDIA Tritonを使用した不正検出モデルの展開が含まれている。