Google Cloud hat die Vorschau des TreeAH-Vektorindex angekündigt, der Kernkomponenten aus Googles Forschung und Innovation im Bereich der approximativen Nächste-Nachbarn-Algorithmen in BigQuery einbringt. Dieser neue Indextyp verwendet die gleiche zugrunde liegende Technologie, die einige der beliebtesten Dienste von Google antreibt, und bietet in bestimmten Situationen erhebliche Latenz- und Kostenreduzierungen im Vergleich zum ersten in BigQuery implementierten Index, dem invertierten Dateiindex (IVF).

Einer der Hauptvorteile des TreeAH-Index ist die Verwendung von asymmetrischem Hashing (das "AH" in TreeAH), das Produktquantisierung zur Komprimierung von Einbettungen verwendet. Gepaart mit einem CPU-optimierten Algorithmus zur Abstandsberechnung kann die Vektorsuche mit TreeAH um Grössenordnungen schneller und kostengünstiger sein als mit IVF. Die Indexgenerierung kann auch 10x schneller und günstiger sein und einen geringeren Speicherbedarf haben, da nur die komprimierten Einbettungen gespeichert werden.

Benchmarks, die von Googles Engineering-Team durchgeführt wurden, haben gezeigt, dass TreeAH IVF deutlich übertrifft, wenn die Grösse der Abfragebatches gross ist. So war TreeAH bei Abfragebatches mit 10.000 Vektoren bis zu 23x schneller und 95 % günstiger als IVF. Auch das Training des TreeAH-Index war in den meisten Fällen deutlich schneller und günstiger als bei IVF.

Es ist jedoch erwähnenswert, dass sich TreeAH noch in der aktiven Entwicklung befindet und derzeit einige Einschränkungen bestehen. So kann die Basistabelle maximal 200 Millionen Zeilen umfassen, und gespeicherte Spalten und Vorfilterung werden für den TreeAH-Index nicht unterstützt.

Insgesamt ist TreeAH eine wertvolle Ergänzung zu BigQuery, die für bestimmte Arten von Vektorsuche-Workloads erhebliche Leistungs- und Kostenvorteile bietet. Es wird erwartet, dass dies mehr Anwendungsfälle für die Vektorsuche in BigQuery ermöglichen wird, wie z. B. semantische Suche und LLM-basierte Retrieval-Augmented Generation (RAG).