Embedding Drift
Embedding Drift bezeichnet die messbare Veränderung der Verteilung von Vektor-Repräsentationen (Embeddings) über die Zeit – typischerweise ausgelöst durch Modellwechsel, Updates am Embedding-Modell, veränderte Datenquellen oder neue Vorverarbeitung. Dadurch können Ähnlichkeiten im Vektorraum „anders“ ausfallen, was die Qualität von Suche, Clustering und insbesondere RAG (Retrieval-Augmented Generation) verschlechtern kann.
Was bedeutet Embedding Drift in der Praxis?
Viele KI-Systeme speichern Inhalte als Embeddings in einer Vektordatenbank (Vector Database). Wenn sich die Art ändert, wie Texte in Vektoren übersetzt werden, verschiebt sich die Geometrie des Vektorraums. Dann sind „alte“ und „neue“ Embeddings nicht mehr direkt vergleichbar oder die Nachbarschaften (Nearest Neighbors) ändern sich. Das führt dazu, dass eine semantische Suche plötzlich andere Treffer liefert – obwohl Dokumente und Queries gleich geblieben sind.
Wie funktioniert das (und warum passiert es)?
- Modell-Update: Wechsel des Embedding-Modells (z. B. neue Version beim Provider) verändert die Vektorlandschaft.
- Training-/Datenänderungen: Ein Modell wurde mit anderen Daten nachtrainiert oder anders ausgerichtet (Alignment), wodurch sich semantische Abstände verschieben.
- Preprocessing-Änderungen: Neues Chunking, andere Normalisierung, andere Spracheinstellungen oder Tokenisierung können Embeddings systematisch verändern.
- Domänendrift in den Inhalten: Neue Dokumenttypen, neue Fachbegriffe oder andere Schreibstile erzeugen eine andere Embedding-Verteilung – selbst bei gleichem Modell.
Beispiel: Warum Embedding Drift in RAG-Systemen kritisch ist
In einem RAG (Retrieval-Augmented Generation)-Setup werden Dokumente indexiert (Embeddings) und bei einer Nutzerfrage wird per Vektorsuche das relevanteste Material geholt. Wenn du nun das Embedding-Modell wechselst, sind die Query-Embeddings „neu“, die Dokument-Embeddings aber „alt“. Ergebnis: schlechtere Treffer, mehr irrelevante Chunks, steigende Halluzinationsrate im nachfolgenden Large Language Model (LLM). Typische Symptome sind: „Früher hat es funktioniert, nach dem Update nicht mehr“, sinkende Precision@k, mehr Support-Tickets oder auffällige Änderungen in Re-Ranking- und Retrieval-Metriken.
Woran erkennt man Embedding Drift?
- Retrieval-Metriken kippen: Recall/Precision sinken, Top-k Treffer wirken „random“.
- Distribution-Checks: Mittelwert/Varianz der Embeddings, Cosine-Similarity-Verteilungen oder PCA/UMAP-Projektionen ändern sich deutlich.
- Regression-Tests: Ein Golden Set liefert plötzlich andere Nachbarn oder schlechtere RAG-Antwortqualität (Evals).
Was tun gegen Embedding Drift?
- Versionieren: Embedding-Modell, Preprocessing und Index-Version strikt dokumentieren (MLOps/LLMOps).
- Re-Embedding planen: Bei Modellwechseln den gesamten Index neu embeddieren (oder parallel zwei Indizes betreiben).
- Canary & A/B Tests: Neue Embeddings zunächst für einen Teil der Queries testen, bevor du umstellst.
- Monitoring: Laufende Observability auf Retrieval-Qualität, Similarity-Drift und Antwortqualität.
Embedding Drift ist damit eine spezielle Form von Model Drift (Modell-Drift), die besonders in Such- und Retrieval-Systemen relevant ist – und ein zentraler Grund, warum stabile Indizes, saubere Versionierung und kontinuierliche Evaluation in produktiven KI-Pipelines unverzichtbar sind.