CAllgemein

Chunking (Text-Chunking)

Aufteilen von Dokumenten in passende Abschnitte für RAG/Embedding.

Chunking (Text-Chunking) bezeichnet das gezielte Aufteilen langer Dokumente in kleinere, semantisch sinnvolle Abschnitte („Chunks“), damit KI-Systeme Inhalte besser speichern, suchen und wiederverwenden können – vor allem in RAG (Retrieval-Augmented Generation)-Setups und bei Embeddings. Ziel ist, dass jeder Chunk genug Kontext enthält, aber nicht so lang ist, dass relevante Informationen im Rauschen untergehen.

Was bedeutet Chunking (Text-Chunking)?

Der Begriff „Chunk“ heißt wörtlich „Brocken“ oder „Stück“. Beim Text-Chunking wird ein Dokument (z. B. PDF, Wiki, Support-Artikel, Vertrag) in Abschnitte zerlegt, die thematisch zusammengehören. Jeder Abschnitt wird anschließend typischerweise in Vektoren umgewandelt (siehe Embeddings) und in einer Vektordatenbank (Vector Database) abgelegt, damit ein Large Language Model (LLM) später die passenden Textstellen gezielt abrufen kann.

Wie funktioniert Chunking in RAG/Embedding-Pipelines?

  • 1) Ingestion: Dokumente werden importiert (z. B. aus SharePoint, Notion, Google Drive oder via n8n-Workflow).
  • 2) Vorverarbeitung: Extraktion von Text, Bereinigung (Header/Footer entfernen), optional OCR bei Scans.
  • 3) Chunking-Strategie: Aufteilung nach Absätzen, Überschriften, Sätzen oder anhand semantischer Grenzen; oft mit Overlap (Überlappung).
  • 4) Embedding: Jeder Chunk wird in einen Vektor umgerechnet (numerische Repräsentation der Bedeutung).
  • 5) Retrieval: Bei einer Nutzerfrage werden ähnliche Chunks gesucht (Top-k) und zusammen mit der Frage an das Large Language Model (LLM) geschickt.
  • 6) Antwortgenerierung: Das Modell formuliert die Antwort auf Basis der gefundenen Quellen (RAG), wodurch Halluzinationen sinken können (siehe Halluzinationen (Hallucinations)).

Warum ist Chunking wichtig?

Gutes Chunking entscheidet oft über die Qualität eines RAG-Systems: Zu große Chunks liefern zwar Kontext, verwässern aber die Relevanz und erhöhen Token-Kosten. Zu kleine Chunks sind zwar präzise, verlieren jedoch Zusammenhänge (Definition ohne Bedingungen, Schritt ohne Voraussetzung). Chunking ist damit ein zentraler Hebel für bessere Treffer, geringere Kosten und stabilere Antworten.

Typische Chunking-Methoden (mit Beispielen)

  • Fixed-Size Chunking: z. B. alle 300–800 Tokens. Einfach, aber kann Themen mitten im Satz trennen.
  • Struktur-basiert: Trennung nach Überschriften/Abschnitten (Markdown/HTML). Ideal für Handbücher und Wissensbasen.
  • Sentence/Paragraph-basiert: Chunks bestehen aus ganzen Sätzen/Absätzen; natürlicher Sprachfluss.
  • Semantisches Chunking: Inhalte werden so geschnitten, dass jeder Chunk ein Thema vollständig abdeckt (z. B. „Rückgaberecht“ als eigener Block).

Beispiel: Ein FAQ-Artikel „Rechnung & Zahlungsarten“ wird besser in Chunks pro Frage-Antwort-Paar geteilt als in starre 500-Tokens-Blöcke. So findet das Retrieval bei „Kann ich per SEPA zahlen?“ direkt den passenden Abschnitt statt einen großen Sammelblock.

Best Practices: Chunk-Größe, Overlap & Metadaten

  • Chunk-Größe: Häufig funktionieren mittlere Größen (z. B. 200–800 Tokens) gut – abhängig von Texttyp und Modellkontext.
  • Overlap: 10–20% Überlappung hilft, wenn wichtige Infos an Abschnittsgrenzen liegen (z. B. Definition + Einschränkung).
  • Metadaten: Quelle, Titel, Abschnittsüberschrift, Datum, Produkt/Version. Das verbessert Filterung und Nachvollziehbarkeit.
  • Qualitätskontrolle: Retrieval testen: Finden typische Nutzerfragen die richtigen Chunks? Falls nicht: Chunking anpassen.

Wann braucht man besonders gutes Chunking?

Immer dann, wenn Inhalte komplex, versioniert oder rechtlich sensibel sind (Policies, Verträge, technische Dokus). In Automations-Setups mit AI Agents (KI-Agenten) oder Function Calling / Tool Use ist sauberes Chunking ebenfalls entscheidend, weil falsche Retrieval-Treffer zu falschen Aktionen führen können. Chunking ist damit ein praktischer Kernbaustein zuverlässiger KI-Anwendungen – vom Chatbot bis zur automatisierten Support-Antwort in Automatisierung (Automation)-Workflows.

Zahlen & Fakten

0–35%
bessere TrefferquoteSauber gewählte Text-Chunks verbessern in RAG-Systemen häufig die Relevanz der abgerufenen Inhalte und erhöhen damit die Antwortqualität für Fachanwender.
0–30%
geringere Token-KostenKMU können durch kompaktere und sinnvoll segmentierte Dokumente Embedding- und Inferenzkosten senken, weil weniger irrelevanter Kontext verarbeitet wird.
0–4 Wochen
schnellere EinführungEin durchdachtes Chunking-Konzept verkürzt oft die Pilotphase von Wissens- und Support-Chatbots, da Inhalte strukturierter indexiert und leichter getestet werden können.

Anwendungsfälle in der Praxis

Bist du bereit für Chunking (Text-Chunking)?

Beantworte 5 kurze Fragen und finde heraus, wo du stehst.
Hast du bereits Dokumente oder Wissensquellen für Embeddings oder RAG aufbereitet?
Teilst du Texte heute schon bewusst in kleinere Abschnitte statt komplette Dokumente auf einmal zu verarbeiten?
Hast du Regeln definiert, wie lang ein Chunk sein darf und wo sinnvolle Abschnittsgrenzen liegen?
Berücksichtigst du beim Chunking Kontext-Erhalt, zum Beispiel durch Overlap zwischen benachbarten Abschnitten?
Prüfst du systematisch, wie sich deine Chunking-Strategie auf Retrieval-Qualität und Antwortgenauigkeit auswirkt?

Sind deine Dokumente schon so gechunkt, dass dein KI-System wirklich präzise antwortet?

Chunking entscheidet oft darüber, ob ein RAG-System relevante Informationen findet oder wichtige Details übersieht. Gerade bei Unternehmensdaten braucht es passende Abschnittsgrößen, saubere Struktur und eine Logik, die zu deinen Prozessen passt. Ich helfe dir dabei, Text-Chunking sinnvoll für deine Datenbasis aufzusetzen und in ein funktionierendes RAG-System zu überführen. So bekommt dein Team keine KI-Demo, sondern ein verlässliches Werkzeug für den Alltag.

Häufig gestellte Fragen

Was bedeutet Chunking im Kontext von KI und RAG?
Chunking bedeutet, lange Texte in kleinere, inhaltlich sinnvolle Abschnitte aufzuteilen. So können Embeddings, Vektordatenbanken und RAG-Systeme relevante Informationen gezielter finden und an ein Sprachmodell übergeben, ohne dass wichtige Details in zu großen Textblöcken verloren gehen.