Google Cloud hat einen praktischen Leitfaden zur Maximierung des LLM-Serving-Durchsatzes für GPUs auf GKE veröffentlicht.

Der Blog-Beitrag befasst sich mit der Herausforderung, dass das Bereitstellen von grundlegenden KI-Modellen wie großen Sprachmodellen (LLMs) kostspielig sein kann. GKE bietet mit Funktionen wie der automatischen Skalierung von Workloads und Infrastruktur sowie Load Balancing eine kostengünstige Lösung.

Der Blog-Beitrag enthält praktische Empfehlungen zur Maximierung des Serving-Durchsatzes auf NVIDIA-GPUs auf GKE, darunter:

* **Entscheiden, ob und wie das Modell quantisiert werden soll.** FP16- und Bfloat16-Quantisierung bieten eine nahezu identische Genauigkeit wie FP32 bei halbiertem Speicherbedarf.

* **Auswahl des passenden Maschinentyps für das Modell.** Die Wahl des Maschinentyps hängt von der Anzahl der Parameter im Modell und dem Datentyp der Modellgewichte ab.

* **Auswahl der richtigen GPU.** GKE bietet eine Vielzahl von VMs, die mit NVIDIA-GPUs ausgestattet sind. Die Wahl der GPU hängt von den Modelleigenschaften und den Leistungsanforderungen ab.

Darüber hinaus geht der Blog-Beitrag darauf ein, wie eine Modellserverplattform für eine bestimmte Inferenz-Workload optimiert werden kann, darunter:

* **Optimierung für eingabeintensive und ausgabeintensive Anwendungsfälle.** Die LLM-Inferenz umfasst zwei Phasen: Prefill und Decode.

* **Wie sich Batching auf die Leistung auswirkt.** Batch-Anfragen sind für einen höheren Durchsatz unerlässlich, da sie mehr GPU-Speicher, HBM-Bandbreite und GPU-FLOPS ohne zusätzliche Kosten nutzen.

Zusammenfassend bietet der Blog-Beitrag praktische Leitlinien zur Maximierung des LLM-Serving-Durchsatzes auf GPUs auf GKE. Durch Befolgen dieser Empfehlungen können Unternehmen die Kosten für das Bereitstellen von LLMs senken und gleichzeitig eine hohe Leistung gewährleisten.