Google Cloud hat wichtige Updates für die AI-Hypercomputer-Software angekündigt, die sich auf die Verbesserung der Trainings- und Inferenzleistung, die Verbesserung der Ausfallsicherheit in großem Maßstab sowie einen zentralen Hub für AI-Hypercomputer-Ressourcen konzentrieren.
Zu den wichtigsten Updates gehört die Unterstützung von MaxText für A3 Mega VMs, die ein schnelleres und effizienteres Training großer Sprachmodelle (LLMs) ermöglicht. Diese virtuellen Maschinen, die mit NVIDIA H100 Tensor Core GPUs betrieben werden, bieten eine zweifache Verbesserung der GPU-zu-GPU-Netzwerkbandbreite im Vergleich zu A3 VMs.
Darüber hinaus hat Google Cloud SparseCore auf Cloud TPU v5p eingeführt, das eine Hardwarebeschleunigung für Einbettungsoperationen bietet, was zu einer höheren Leistung von Empfehlungssystemen führt.
Um die LLM-Inferenz zu verbessern, hat Google Cloud außerdem die KV-Cache-Quantisierung und Ragged-Attention-Kernel in JetStream eingeführt, wodurch die Inferenzleistung auf Cloud TPU v5e um das bis zu Zweifache verbessert wird.
Mit diesen Updates ermöglicht Google Cloud Unternehmen weiterhin, ihre KI-Reisen zu beschleunigen, indem es eine leistungsstarke und kostengünstige Infrastruktur bereitstellt. Der Fokus auf optimierte Hardware und Software sowie umfassende Ressourcen machen AI Hypercomputer zu einer attraktiven Lösung für Unternehmen, die das Potenzial von KI nutzen möchten.