Google Cloud hat einen Blogbeitrag veröffentlicht, der beschreibt, wie man das Meta Llama 3.2-1B-Instruct-Modell mit Cloud Run GPU bereitstellt. Der Beitrag bietet eine Schritt-für-Schritt-Anleitung zur Verwendung von Cloud Run GPU für die Bereitstellung von Open-Source-LLMs. Er behandelt auch Best Practices zur Optimierung des Entwicklungsprozesses durch lokale Modelltests mit dem Text Generation Inference (TGI) Docker-Image, was die Fehlerbehebung vereinfacht und die Produktivität steigert. Mit Cloud Run GPU profitieren Entwickler von der bedarfsgerechten Verfügbarkeit und mühelosen Skalierbarkeit, die sie von Cloud Run CPU und Arbeitsspeicher kennen, kombiniert mit der zusätzlichen Leistung von NVIDIA-GPUs. Wenn Ihre Anwendung im Leerlauf ist, skalieren Ihre GPU-ausgestatteten Instanzen automatisch auf null herunter, wodurch Ihre Kosten optimiert werden. Der Beitrag enthält auch Tipps zur Verbesserung von Kaltstarts mit Cloud Storage FUSE. Mit Cloud Storage FUSE können Entwickler Google Cloud Storage-Buckets als Dateisystem einbinden, was die Kaltstartzeiten erheblich reduziert.