Data Chunk Overlap (Chunk-Überlappung)
Data Chunk Overlap (Chunk-Überlappung) bezeichnet die bewusst eingeplante Überschneidung von Textabschnitten (Chunks), wenn Dokumente für semantische Suche und RAG (Retrieval-Augmented Generation) in kleinere Einheiten zerlegt werden. Dadurch bleiben zusammenhängende Informationen über Chunk-Grenzen hinweg erhalten, was die Retrieval-Qualität erhöht und die Antworten eines Large Language Model (LLM) stabiler und präziser macht.
Was bedeutet Data Chunk Overlap?
Beim Chunking wird ein Dokument in Abschnitte aufgeteilt, die anschließend als Embeddings in einer Vektordatenbank (Vector Database) gespeichert werden. „Overlap“ bedeutet: Jeder neue Chunk enthält nicht nur „neuen“ Text, sondern wiederholt zusätzlich die letzten X Tokens/Wörter des vorherigen Chunks (z. B. 15–25%). So können Sätze, Definitionen oder Aufzählungen, die genau an einer Grenze liegen, trotzdem vollständig gefunden und verstanden werden.
Wie funktioniert Chunk-Überlappung in der Praxis?
- 1) Chunk-Größe festlegen: z. B. 400–800 Tokens (je nach Dokumenttyp und Modell).
- 2) Overlap definieren: z. B. 50–150 Tokens, die am Ende des vorherigen Chunks wiederholt werden.
- 3) Embeddings erzeugen: Jeder Chunk (inkl. Overlap) wird in einen Vektor umgewandelt.
- 4) Retrieval: Bei einer Anfrage werden die ähnlichsten Chunks per Vector Search (Vektorsuche) / Semantic Search abgerufen.
- 5) Antwortgenerierung: Das LLM nutzt die gefundenen Chunks als Kontext (typisch in RAG (Retrieval-Augmented Generation)-Pipelines).
Warum ist Data Chunk Overlap wichtig?
Ohne Overlap entstehen „harte Kanten“: Ein wichtiger Halbsatz steht am Ende von Chunk A, die Erklärung dazu am Anfang von Chunk B. Das Retrieval kann dann nur einen Teil treffen – und das LLM interpretiert unvollständigen Kontext, was zu schlechteren Antworten oder sogar Halluzinationen (Hallucinations) führen kann. Overlap wirkt wie ein Sicherheitsnetz: Zusammengehörige Informationen bleiben mit höherer Wahrscheinlichkeit gemeinsam im Treffer-Set.
Beispiel: Was Overlap konkret verbessert
Angenommen, ein Handbuch erklärt einen n8n-Workflow: „Wenn der Webhook 401 zurückgibt, prüfe zuerst den API-Key und dann die Header…“. Fällt „prüfe zuerst den API-Key“ ans Chunk-Ende und „…und dann die Header“ in den nächsten Chunk, kann die Suche nur den ersten Teil finden. Mit Overlap taucht der vollständige Hinweis in beiden Chunks auf – Retrieval und Antwort werden konsistenter, gerade bei mehrstufigen Troubleshooting-Anleitungen.
Trade-offs: Wie viel Overlap ist sinnvoll?
- Mehr Overlap = bessere Kohärenz, aber auch mehr Speicher in der Vektordatenbank und potenziell mehr redundanter Kontext im Prompt.
- Zu viel Overlap kann Treffer „verwässern“, weil viele Chunks sehr ähnlich werden, und die Kosten im Kontextfenster steigen (siehe Kontextfenster (Context Window)).
- Typische Faustregel: 10–25% Overlap. Bei stark strukturierten Texten (FAQs, Tabellen) oft weniger; bei Fließtext, Verträgen oder Policies eher mehr.
Wann solltest du Chunk-Überlappung einsetzen?
Chunk-Überlappung ist besonders sinnvoll, wenn Inhalte lange Sätze, verschachtelte Definitionen, Referenzen („siehe oben“) oder Schritt-für-Schritt-Anleitungen enthalten – also überall dort, wo Bedeutung über mehrere Sätze hinweg entsteht. In Automations-Setups (z. B. mit n8n) verbessert Overlap häufig die Zuverlässigkeit von Wissensabfragen, weil Fehlersymptome und Lösungen seltener getrennt werden.