RAllgemein

Re-Indexing (Neuindexierung)

Erneutes Erstellen von Vektoren/Index nach Daten- oder Modelländerung

Re-Indexing (Neuindexierung) bezeichnet das erneute Erstellen eines Such- oder Vektorindex, nachdem sich Daten, Struktur oder das zugrunde liegende Modell geändert haben. In KI-Setups – besonders bei RAG (Retrieval-Augmented Generation) – bedeutet das meist: Dokumente werden neu gechunkt, neue Embeddings berechnet und in einer Vektordatenbank (Vector Database) aktualisiert, damit Retrieval und Antworten wieder korrekt sind.

Was bedeutet Re-Indexing in KI-Systemen?

Viele KI-Anwendungen nutzen einen Index als „schnellen Zugriff“ auf Wissen: Statt jedes Mal alle Dokumente zu durchsuchen, wird ein vorberechneter Index abgefragt. Wenn sich Inhalte (z. B. neue Richtlinien, geänderte Produktdaten), die Datenaufbereitung (z. B. anderes Chunking (Text-Chunking)) oder das Embedding-Modell ändern, kann der bestehende Index veraltet oder inkompatibel sein. Re-Indexing stellt sicher, dass die Suche (z. B. Vector Search (Vektorsuche) / Semantic Search) wieder relevante Treffer liefert und das LLM weniger halluziniert.

Wie funktioniert Re-Indexing? (typischer Ablauf)

Wann ist Re-Indexing notwendig?

  • Inhalte ändern sich: neue Dokumente, aktualisierte Handbücher, gelöschte Seiten (sonst „stale results“).
  • Embedding- oder Modellwechsel: anderes Embedding-Modell, neue Dimensionen, anderer Tokenizer – alte Vektoren sind dann oft nicht mehr vergleichbar.
  • Chunking-Strategie wird angepasst: z. B. kleinere Chunks für präzisere Antworten oder größere Chunks für mehr Kontext.
  • Metadaten/Filterlogik ändert sich: z. B. neue Zugriffsebenen, Mandantenfähigkeit, Compliance-Labels.
  • Performance- oder Qualitätsprobleme: schlechter Recall, mehr Halluzinationen, falsche Quellen.

Beispiel aus der Praxis (RAG + Chatbot)

Ein Support-Chatbot auf Basis von ChatGPT nutzt RAG (Retrieval-Augmented Generation) über eine Wissensdatenbank. Nach einem Update der Produktpreise und Garantiebedingungen liefert der Bot weiterhin alte Antworten, weil die geänderten Seiten nicht neu eingebettet wurden. Durch Re-Indexing werden die betroffenen Dokumente neu gechunkt, neue Embeddings erzeugt und der Index aktualisiert – danach findet das Retrieval wieder die aktuellen Passagen und die Antworten stimmen.

Re-Indexing vs. inkrementelles Update

Re-Indexing kann vollständig (alles neu) oder inkrementell (nur geänderte Teile) erfolgen. Vollständiges Re-Indexing ist einfacher und sicherer bei Modell-/Chunking-Wechseln, aber teurer. Inkrementelle Updates sind günstiger und schneller, erfordern aber saubere Änderungsdetektion und Löschlogik.

Warum ist Neuindexierung wichtig?

Neuindexierung ist ein Kernbaustein für zuverlässige KI-Antworten: Sie reduziert veraltete Treffer, verbessert Retrieval-Qualität und senkt das Risiko von Halluzinationen (Hallucinations). In produktiven Setups wird Re-Indexing oft automatisiert (z. B. mit n8n und Automatisierung (Automation)) und durch Monitoring/Tests abgesichert.