Google Cloud hat einen Blogbeitrag mit dem Titel "Kosten für GPUs sparen: Intelligentere Autoskalierung für Ihre GKE-Inferenz-Workloads" veröffentlicht. Der Artikel befasst sich damit, wie kostspielig das Ausführen von LLM-Modellinferenz-Workloads sein kann, selbst wenn die neuesten Open-Source-Modelle und -Infrastrukturen verwendet werden.
Als eine Lösung wird die automatische Skalierung vorgeschlagen, die dazu beiträgt, die Kosten zu optimieren, indem sichergestellt wird, dass die Kundennachfrage gedeckt wird und nur für die benötigten KI-Beschleuniger bezahlt wird.
Der Artikel enthält Anleitungen zum Einrichten der automatischen Skalierung für Inferenz-Workloads in GKE, wobei der Schwerpunkt auf der Auswahl der richtigen Metrik liegt.
Besonders interessant fand ich den Vergleich verschiedener Metriken für die automatische Skalierung auf GPUs, z. B. die Verwendung der GPU-Auslastung im Vergleich zur Batchgröße im Vergleich zur Warteschlangengröße.
Ich fand heraus, dass die Verwendung der GPU-Auslastung keine effektive Metrik für die automatische Skalierung von LLM-Workloads ist, da sie zu einer Überbereitstellung führen kann. Andererseits bieten die Batchgröße und die Warteschlangengröße direkte Indikatoren für den Datenverkehr, dem der Inferenzserver ausgesetzt ist, was sie zu effektiveren Metriken macht.
Insgesamt bot der Artikel einen hilfreichen Überblick darüber, wie die Kostenleistung von LLM-Inferenz-Workloads auf GKE optimiert werden kann. Ich empfehle jedem, der die Bereitstellung von LLM-Inferenz-Workloads auf GKE in Erwägung zieht, diesen Artikel zu lesen.