Microsoft hat die Markteinführung seiner neuesten Azure-Virtual-Machines der ND H200 v5-Serie bekannt gegeben, die für KI-Supercomputing optimiert sind.
Da sich die KI-Landschaft ständig weiterentwickelt, wächst der Bedarf an skalierbarer und leistungsstarker Infrastruktur exponentiell. Unsere Kunden verlassen sich auf die Azure AI-Infrastruktur, um innovative KI-gesteuerte Lösungen zu entwickeln. Deshalb stellen wir heute neue Cloud-basierte KI-Supercomputing-Cluster bereit, die auf den Virtual Machines (VMs) der Azure ND H200 v5-Serie basieren. Diese VMs sind ab sofort allgemein verfügbar und wurden speziell für die Bewältigung der wachsenden Komplexität fortschrittlicher KI-Workloads entwickelt, vom Training grundlegender Modelle bis hin zu generativem Inferencing. Die Skalierbarkeit, Effizienz und verbesserte Leistung unserer ND H200 v5 VMs führen bereits zu einer hohen Akzeptanz bei Kunden und Microsoft AI-Diensten wie Azure Machine Learning und Azure OpenAI Service.
„Wir freuen uns darauf, die neuen H200-VMs von Azure einzusetzen. Wir haben festgestellt, dass die H200 eine verbesserte Leistung bei minimalem Portierungsaufwand bietet. Wir freuen uns darauf, diese VMs zu nutzen, um unsere Forschung zu beschleunigen, das ChatGPT-Erlebnis zu verbessern und unsere Mission voranzutreiben.“ - Trevor Cai, Head of Infrastructure, OpenAI.
Die Azure ND H200 v5 VMs basieren auf dem Systemansatz von Microsoft zur Verbesserung von Effizienz und Leistung und verfügen über acht NVIDIA H200 Tensor Core GPUs. Insbesondere adressieren sie die Herausforderung, dass GPUs in ihrer Rechenleistung viel schneller wachsen als der angeschlossene Speicher und die Speicherbandbreite. Die VMs der Azure ND H200 v5-Serie bieten eine Steigerung des High Bandwidth Memory (HBM) um 76 % auf 141 GB und eine Steigerung der HBM-Bandbreite um 43 % auf 4,8 TB/s im Vergleich zur vorherigen Generation der Azure ND H100 v5 VMs. Diese höhere HBM-Bandbreite ermöglicht es den GPUs, schneller auf Modellparameter zuzugreifen, wodurch die Gesamtlatenz der Anwendung reduziert wird - eine wichtige Kennzahl für Echtzeitanwendungen wie interaktive Agenten. Die ND H200 V5 VMs können auch komplexere Large Language Models (LLMs) innerhalb des Speichers einer einzigen VM aufnehmen, wodurch die Leistung verbessert wird, da Benutzer den Aufwand für die Ausführung verteilter Jobs auf mehreren VMs vermeiden können.
Das Design unserer H200-Supercomputing-Cluster ermöglicht außerdem eine effizientere Verwaltung des GPU-Speichers für Modellgewichte, Schlüsselwert-Caches und Batchgrößen, die sich alle direkt auf den Durchsatz, die Latenz und die Kosteneffizienz bei generativen KI-Inferenz-Workloads auf LLM-Basis auswirken. Mit ihrer größeren HBM-Kapazität kann die ND H200 v5 VM größere Batchgrößen unterstützen, was zu einer besseren GPU-Auslastung und einem höheren Durchsatz im Vergleich zur ND H100 v5-Serie für Inferenz-Workloads sowohl auf kleinen Sprachmodellen (SLMs) als auch auf LLMs führt. In ersten Tests beobachteten wir eine Durchsatzsteigerung von bis zu 35 % mit ND H200 v5 VMs im Vergleich zur ND H100 v5-Serie für Inferenz-Workloads, die das LLAMA 3.1 405B-Modell ausführen (mit einer Weltgröße von 8, einer Eingabelänge von 128, einer Ausgabelänge von 8 und maximalen Batchgrößen - 32 für H100 und 96 für H200). Weitere Informationen zu den High-Performance-Computing-Benchmarks von Azure finden Sie hier. Weitere Informationen finden Sie auch in unserem AI Benchmarking Guide im Azure GitHub-Repository.
Die ND H200 v5 VMs sind mit Azure Batch, Azure Kubernetes Service, Azure OpenAI Service und Azure Machine Learning vorintegriert, damit Unternehmen sofort loslegen können. Detailliertere technische Dokumentationen zu den neuen Azure ND H200 v5 VMs finden Sie hier.