RAllgemein

Re-Indexing (Neuindexierung)

Erneutes Erstellen von Vektoren/Index nach Daten- oder Modelländerung

Re-Indexing (Neuindexierung) bezeichnet das erneute Erstellen eines Such- oder Vektorindex, nachdem sich Daten, Struktur oder das zugrunde liegende Modell geändert haben. In KI-Setups – besonders bei RAG (Retrieval-Augmented Generation) – bedeutet das meist: Dokumente werden neu gechunkt, neue Embeddings berechnet und in einer Vektordatenbank (Vector Database) aktualisiert, damit Retrieval und Antworten wieder korrekt sind.

Was bedeutet Re-Indexing in KI-Systemen?

Viele KI-Anwendungen nutzen einen Index als „schnellen Zugriff“ auf Wissen: Statt jedes Mal alle Dokumente zu durchsuchen, wird ein vorberechneter Index abgefragt. Wenn sich Inhalte (z. B. neue Richtlinien, geänderte Produktdaten), die Datenaufbereitung (z. B. anderes Chunking (Text-Chunking)) oder das Embedding-Modell ändern, kann der bestehende Index veraltet oder inkompatibel sein. Re-Indexing stellt sicher, dass die Suche (z. B. Vector Search (Vektorsuche) / Semantic Search) wieder relevante Treffer liefert und das LLM weniger halluziniert.

Wie funktioniert Re-Indexing? (typischer Ablauf)

1) Datenänderungen erkennen: Welche Dokumente sind neu, geändert oder gelöscht? (z. B. per Hash, Timestamp, Diff)
2) Vorverarbeitung: Bereinigung, Formatierung, ggf. OCR bei Scans (z. B. via OCR (Optical Character Recognition))
3) Chunking & Metadaten: Texte werden in sinnvolle Abschnitte geteilt; Metadaten wie Quelle, Datum, Rechte, Abteilung werden ergänzt.
4) Embeddings neu berechnen: Für jeden Chunk werden neue Embeddings erzeugt (wichtig bei Modellwechsel oder Parameteränderungen).
5) Index aktualisieren: Upsert/Replace in der Vektordatenbank (Vector Database), ggf. Neuaufbau zusätzlicher Indizes (z. B. Hybrid: BM25 (Keyword Retrieval) + Vektor).
6) Qualität prüfen: Retrieval-Tests, ggf. Evaluation (Eval) & Benchmarking oder Golden Queries; optional Re-Ranking (Neu-Rangordnung).

Wann ist Re-Indexing notwendig?

Inhalte ändern sich: neue Dokumente, aktualisierte Handbücher, gelöschte Seiten (sonst „stale results“).
Embedding- oder Modellwechsel: anderes Embedding-Modell, neue Dimensionen, anderer Tokenizer – alte Vektoren sind dann oft nicht mehr vergleichbar.
Chunking-Strategie wird angepasst: z. B. kleinere Chunks für präzisere Antworten oder größere Chunks für mehr Kontext.
Metadaten/Filterlogik ändert sich: z. B. neue Zugriffsebenen, Mandantenfähigkeit, Compliance-Labels.
Performance- oder Qualitätsprobleme: schlechter Recall, mehr Halluzinationen, falsche Quellen.

Beispiel aus der Praxis (RAG + Chatbot)

Ein Support-Chatbot auf Basis von ChatGPT nutzt RAG (Retrieval-Augmented Generation) über eine Wissensdatenbank. Nach einem Update der Produktpreise und Garantiebedingungen liefert der Bot weiterhin alte Antworten, weil die geänderten Seiten nicht neu eingebettet wurden. Durch Re-Indexing werden die betroffenen Dokumente neu gechunkt, neue Embeddings erzeugt und der Index aktualisiert – danach findet das Retrieval wieder die aktuellen Passagen und die Antworten stimmen.

Re-Indexing vs. inkrementelles Update

Re-Indexing kann vollständig (alles neu) oder inkrementell (nur geänderte Teile) erfolgen. Vollständiges Re-Indexing ist einfacher und sicherer bei Modell-/Chunking-Wechseln, aber teurer. Inkrementelle Updates sind günstiger und schneller, erfordern aber saubere Änderungsdetektion und Löschlogik.

Warum ist Neuindexierung wichtig?

Neuindexierung ist ein Kernbaustein für zuverlässige KI-Antworten: Sie reduziert veraltete Treffer, verbessert Retrieval-Qualität und senkt das Risiko von Halluzinationen (Hallucinations). In produktiven Setups wird Re-Indexing oft automatisiert (z. B. mit n8n und Automatisierung (Automation)) und durch Monitoring/Tests abgesichert.

← Zurück zur Übersicht