Google Cloud hat angekündigt, dass Google Kubernetes Engine (GKE) jetzt Cluster mit bis zu 65.000 Knoten unterstützt und damit für die Anforderungen von riesigen KI-Modellen mit Billionen von Parametern gerüstet ist. Mit der Weiterentwicklung generativer KI steigt der Bedarf an Rechenleistung für das Training dieser Modelle. GKE bietet jetzt mehr als 10x größere Skalierung als die beiden anderen größten Public-Cloud-Anbieter und ermöglicht es Kunden, die Trainingszeit von Modellen zu reduzieren oder Modelle auf mehrere Billionen Parameter zu skalieren. Diese Erweiterung ermöglicht es Kunden auch, fünf Jobs in einem einzigen Cluster auszuführen, die jeweils dem Umfang des bisherigen Weltrekords von Google Cloud für den größten Trainingsjob für große Sprachmodelle entsprechen. Kunden wie Anthropic, ein Unternehmen für KI-Sicherheit und -Forschung, haben diese Entwicklungen begrüßt. Technisch gesehen wechselt GKE vom Open-Source etcd, einem verteilten Schlüssel-Wert-Speicher, zu einem neuen, robusteren Schlüssel-Wert-Speicher, der auf Spanner basiert, Googles verteilter Datenbank. Diese Änderung wird zu neuen Zuverlässigkeitsniveaus für GKE-Benutzer führen und die Latenz von Clusteroperationen verbessern. Darüber hinaus skaliert GKE dank einer umfassenden Überarbeitung der Infrastruktur, die die Kubernetes-Kontrollebene verwaltet, jetzt deutlich schneller. Google Cloud engagiert sich weiterhin für Open Source und stellt sicher, dass alle notwendigen Optimierungen und Verbesserungen für eine solche Skalierung Teil des Open-Source-Kerns von Kubernetes sind.
GKE skaliert auf 65.000 Knoten für Billionen-Parameter-KI-Modelle
Google Cloud