Context Window Overflow
Context Window Overflow bezeichnet den Zustand, wenn die Eingabe (Prompt, Chat-Verlauf, Dokumente oder Tool-Ausgaben) größer ist als das maximale Kontextfenster (Context Window) eines Large Language Model (LLM). Dann muss das System Tokens abschneiden (Trunkierung) oder Inhalte komprimieren – und das Modell „sieht“ Teile der relevanten Information nicht mehr.
Was bedeutet Context Window Overflow in der Praxis?
LLMs verarbeiten Text als Token (Tokens) & Tokenisierung (Tokenization). Jedes Modell hat ein fixes Limit, wie viele Tokens es gleichzeitig berücksichtigen kann (z. B. Systemanweisung, Nutzerprompt, Chat-Historie, Dokumentauszüge und die erwartete Antwort zusammen). Sobald diese Gesamtsumme das Limit überschreitet, tritt ein Overflow auf: Ältere Chat-Teile oder lange Dokumentpassagen werden abgeschnitten oder gar nicht erst in den Modellkontext geladen.
Wie funktioniert das – was wird „abgeschnitten“?
- Trunkierung am Anfang: Häufig werden die ältesten Teile der Konversation entfernt, damit die neuesten Nachrichten passen.
- Trunkierung am Ende: Bei zu langen Einzelprompts kann das Ende fehlen (z. B. eine wichtige Frage oder ein Constraint).
- Verdrängung durch System-/Tool-Text: Lange System Prompt (Systemanweisung)-Texte, Policies oder Tool-Logs können den nutzbaren Platz für Nutzerdaten reduzieren.
Typische Symptome
- Das Modell „vergisst“ frühere Anforderungen (z. B. Formatvorgaben, Definitionen, Rollen).
- Widersprüche im Output oder Wiederholungen, weil Kontext fehlt.
- Mehr Halluzinationen (Hallucinations), weil das Modell Lücken plausibel auffüllt.
- Unerklärliche Fehler in Agenten-Workflows, wenn Tool-Ergebnisse nicht mehr im Kontext sind.
Beispiele (ChatGPT, Automationen, Dokumente)
- Langer Chat in ChatGPT: Nach 30–100 Nachrichten werden frühe Details (z. B. „antworte immer im JSON-Format“) nicht mehr beachtet, wenn sie nicht erneut im aktuellen Kontext stehen.
- Riesiges PDF ohne Aufbereitung: Wenn ein komplettes Handbuch in den Prompt kopiert wird, passt nur ein Teil hinein – wichtige Kapitel fehlen, die Antwort wird unvollständig.
- Automation mit n8n: Ein Workflow sammelt viele E-Mails/Logs und schickt alles an das Modell. Die Tool-Ausgaben sprengen das Kontextfenster; die entscheidende Kundenanforderung wird abgeschnitten.
Warum ist Context Window Overflow wichtig?
Overflow ist eine der häufigsten Ursachen für Qualitätsprobleme in produktiven LLM-Anwendungen: Er senkt Genauigkeit, erhöht Kosten (durch unnötig lange Prompts) und macht Ergebnisse schwer reproduzierbar. Besonders kritisch ist das bei Compliance- oder Prozess-Texten, bei denen ein fehlender Satz die Bedeutung ändern kann.
Wie verhindert man Context Window Overflow?
- Retrieval statt „alles einfügen“: Mit RAG (Retrieval-Augmented Generation) nur die relevantesten Textstellen nachladen.
- Chunking & Auswahl: Dokumente via Chunking (Text-Chunking) aufteilen und per Vector Search (Vektorsuche) / Semantic Search die passenden Abschnitte holen.
- Zusammenfassen/Komprimieren: Zwischensummaries oder Prompt Compression (Prompt-Kompression) einsetzen, bevor der Kontext wächst.
- Kontext-Disziplin: Systemprompt schlank halten, Tool-Logs kürzen, nur benötigte Felder senden.
- State/Memory-Strategie: Wichtige Fakten außerhalb des Prompts speichern (z. B. in Memory (Agent Memory / LLM Memory) oder Datenbank) und gezielt wieder einblenden.
Merksatz: Context Window Overflow ist kein „Bug“ des Modells, sondern eine Kapazitätsgrenze. Gute Prompt- und Retrieval-Architektur entscheidet, ob ein LLM zuverlässig wirkt – oder zufällig.