Re-Indexing (Neuindexierung)
Re-Indexing (Neuindexierung) bezeichnet das erneute Erstellen eines Such- oder Vektorindex, nachdem sich Daten, Struktur oder das zugrunde liegende Modell geändert haben. In KI-Setups – besonders bei RAG (Retrieval-Augmented Generation) – bedeutet das meist: Dokumente werden neu gechunkt, neue Embeddings berechnet und in einer Vektordatenbank (Vector Database) aktualisiert, damit Retrieval und Antworten wieder korrekt sind.
Was bedeutet Re-Indexing in KI-Systemen?
Viele KI-Anwendungen nutzen einen Index als „schnellen Zugriff“ auf Wissen: Statt jedes Mal alle Dokumente zu durchsuchen, wird ein vorberechneter Index abgefragt. Wenn sich Inhalte (z. B. neue Richtlinien, geänderte Produktdaten), die Datenaufbereitung (z. B. anderes Chunking (Text-Chunking)) oder das Embedding-Modell ändern, kann der bestehende Index veraltet oder inkompatibel sein. Re-Indexing stellt sicher, dass die Suche (z. B. Vector Search (Vektorsuche) / Semantic Search) wieder relevante Treffer liefert und das LLM weniger halluziniert.
Wie funktioniert Re-Indexing? (typischer Ablauf)
- 1) Datenänderungen erkennen: Welche Dokumente sind neu, geändert oder gelöscht? (z. B. per Hash, Timestamp, Diff)
- 2) Vorverarbeitung: Bereinigung, Formatierung, ggf. OCR bei Scans (z. B. via OCR (Optical Character Recognition))
- 3) Chunking & Metadaten: Texte werden in sinnvolle Abschnitte geteilt; Metadaten wie Quelle, Datum, Rechte, Abteilung werden ergänzt.
- 4) Embeddings neu berechnen: Für jeden Chunk werden neue Embeddings erzeugt (wichtig bei Modellwechsel oder Parameteränderungen).
- 5) Index aktualisieren: Upsert/Replace in der Vektordatenbank (Vector Database), ggf. Neuaufbau zusätzlicher Indizes (z. B. Hybrid: BM25 (Keyword Retrieval) + Vektor).
- 6) Qualität prüfen: Retrieval-Tests, ggf. Evaluation (Eval) & Benchmarking oder Golden Queries; optional Re-Ranking (Neu-Rangordnung).
Wann ist Re-Indexing notwendig?
- Inhalte ändern sich: neue Dokumente, aktualisierte Handbücher, gelöschte Seiten (sonst „stale results“).
- Embedding- oder Modellwechsel: anderes Embedding-Modell, neue Dimensionen, anderer Tokenizer – alte Vektoren sind dann oft nicht mehr vergleichbar.
- Chunking-Strategie wird angepasst: z. B. kleinere Chunks für präzisere Antworten oder größere Chunks für mehr Kontext.
- Metadaten/Filterlogik ändert sich: z. B. neue Zugriffsebenen, Mandantenfähigkeit, Compliance-Labels.
- Performance- oder Qualitätsprobleme: schlechter Recall, mehr Halluzinationen, falsche Quellen.
Beispiel aus der Praxis (RAG + Chatbot)
Ein Support-Chatbot auf Basis von ChatGPT nutzt RAG (Retrieval-Augmented Generation) über eine Wissensdatenbank. Nach einem Update der Produktpreise und Garantiebedingungen liefert der Bot weiterhin alte Antworten, weil die geänderten Seiten nicht neu eingebettet wurden. Durch Re-Indexing werden die betroffenen Dokumente neu gechunkt, neue Embeddings erzeugt und der Index aktualisiert – danach findet das Retrieval wieder die aktuellen Passagen und die Antworten stimmen.
Re-Indexing vs. inkrementelles Update
Re-Indexing kann vollständig (alles neu) oder inkrementell (nur geänderte Teile) erfolgen. Vollständiges Re-Indexing ist einfacher und sicherer bei Modell-/Chunking-Wechseln, aber teurer. Inkrementelle Updates sind günstiger und schneller, erfordern aber saubere Änderungsdetektion und Löschlogik.
Warum ist Neuindexierung wichtig?
Neuindexierung ist ein Kernbaustein für zuverlässige KI-Antworten: Sie reduziert veraltete Treffer, verbessert Retrieval-Qualität und senkt das Risiko von Halluzinationen (Hallucinations). In produktiven Setups wird Re-Indexing oft automatisiert (z. B. mit n8n und Automatisierung (Automation)) und durch Monitoring/Tests abgesichert.