Google Cloud hat die Unterstützung von NVIDIA L4-GPUs für Cloud Run in der Vorschau angekündigt. Dies eröffnet Cloud Run-Entwicklern viele neue Anwendungsfälle:
* Durchführung von Echtzeitinferenzen mit leichtgewichtigen Open-Source-Modellen wie Googles Open-Source-Gemma-Modellen (2B/7B) oder Metas Llama 3 (8B), um benutzerdefinierte Chatbots oder spontane Dokumentzusammenfassungen zu erstellen und gleichzeitig skalieren zu können, um auch bei starken Benutzerzahlen Schritt zu halten.
* Bereitstellung von benutzerdefinierten, fein abgestimmten KI-Modellen, z. B. für die Bildgenerierung, die auf die Marke Ihres Unternehmens zugeschnitten sind, und Skalierung nach unten, um die Kosten zu optimieren, wenn sie nicht verwendet werden.
* Beschleunigung Ihrer rechenintensiven Cloud Run-Dienste, z. B. On-Demand-Bilderkennung, Videotranskodierung und -streaming sowie 3D-Rendering.
Als vollständig verwaltete Plattform ermöglicht Cloud Run die Ausführung von Code direkt auf der skalierbaren Infrastruktur von Google und kombiniert die Flexibilität von Containern mit der Einfachheit von Serverless, um die Produktivität zu steigern. Mit Cloud Run können Sie Frontend- und Backend-Dienste, Batch-Jobs, Websites und Anwendungen bereitstellen und Workloads für die Warteschlangenverarbeitung verarbeiten - alles ohne die zugrunde liegende Infrastruktur verwalten zu müssen.
Gleichzeitig erfordern viele Workloads, die KI-Inferenzen durchführen, insbesondere Anwendungen, die Echtzeitverarbeitung erfordern, eine GPU-Beschleunigung, um reaktionsschnelle Benutzererlebnisse zu ermöglichen. Mit der Unterstützung von NVIDIA-GPUs können Sie On-Demand-Online-KI-Inferenzen mit den LLMs Ihrer Wahl in Sekundenschnelle durchführen.
Frühe Kunden sind begeistert von der Kombination aus Cloud Run und NVIDIA-GPUs.
„Die GPU-Unterstützung von Cloud Run war ein Wendepunkt für unsere Echtzeit-Inferenzanwendungen. Die geringe Kaltstartlatenz ist beeindruckend, sodass unsere Modelle Vorhersagen fast sofort liefern können, was für zeitkritische Kundenerlebnisse entscheidend ist. Darüber hinaus halten Cloud Run-GPUs die Serving-Latenz bei unterschiedlichen Lasten konstant minimal, sodass unsere generativen KI-Anwendungen immer reaktionsschnell und zuverlässig sind - und das alles bei müheloser Skalierung auf Null während Inaktivitätsphasen. Insgesamt haben Cloud Run-GPUs unsere Fähigkeit, unseren Endbenutzern schnelle, genaue und effiziente Ergebnisse zu liefern, erheblich verbessert