Kontextfenster (Context Window)
Ein Kontextfenster (Context Window) ist die maximale Menge an Text (gemessen in Tokens), die ein KI-Modell in einer einzelnen Anfrage gleichzeitig „im Blick“ behalten und verarbeiten kann. Dazu zählen sowohl deine Eingabe (Prompt, Anweisungen, Dateien/Chatverlauf) als auch die Ausgabe des Modells. Ist das Kontextfenster voll, müssen Inhalte gekürzt, ausgelagert oder weggelassen werden.
Was bedeutet „Token“ im Kontextfenster?
Tokens sind die „Recheneinheiten“ für Text: Ein Token kann ein Wort, ein Wortteil, Satzzeichen oder Leerzeichen sein. Deshalb ist die Token-Anzahl nicht identisch mit der Zeichen- oder Wortanzahl. In der Praxis gilt: Je länger und komplexer dein Prompt (inkl. Chatverlauf), desto schneller erreichst du die Kontextgrenze.
Wie funktioniert ein Kontextfenster in der Praxis?
- Alles zählt mit: System- und Rollen-Anweisungen, dein Prompt, der bisherige Chatverlauf, eingefügte Dokumente sowie Tool-Outputs (z. B. aus Function Calling / Tool Use).
- Eingabe + Ausgabe teilen sich das Budget: Wenn du sehr viel Kontext sendest, bleibt weniger „Platz“ für eine lange Antwort.
- Bei Überschreitung passiert Kürzung: Entweder wird die Anfrage abgelehnt, oder ältere Teile des Verlaufs werden abgeschnitten. Dann „vergisst“ das Modell Details, was zu Inkonsistenzen führen kann.
Warum ist das Kontextfenster wichtig?
Das Kontextfenster bestimmt, wie gut ein Modell längere Aufgaben bewältigt: z. B. umfangreiche Analysen, mehrteilige Dialoge, lange Spezifikationen oder das Bearbeiten großer Dokumente. Ein kleines Kontextfenster führt schneller zu Informationsverlust, was wiederum die Wahrscheinlichkeit von Fehlern oder Halluzinationen (Hallucinations) erhöhen kann. Bei Large Language Model (LLM)-Anwendungen ist die Kontextgröße daher ein zentraler Qualitäts- und Kostenfaktor.
Beispiele aus KI, Automatisierung und Workflows
- ChatGPT & lange Chats: Wenn ein Gespräch sehr lang wird, können frühe Anforderungen (z. B. Tonalität, Zielgruppe) aus dem Kontext fallen. Ergebnis: Der Stil driftet.
- Dokumentanalyse: Ein 80-seitiger Vertrag passt oft nicht vollständig in ein einzelnes Kontextfenster. Du musst dann kürzen, abschnittsweise fragen oder Inhalte auslagern.
- Automation mit n8n: In automatisierten Pipelines (z. B. Ticket-Zusammenfassungen) kann zu viel Rohtext das Kontextfenster sprengen. Dann helfen Vorfilter, Zusammenfassungen oder strukturierte Extraktion.
Typische Lösungen, wenn der Kontext nicht reicht
- Prompt kürzen & strukturieren: Klare Anweisungen, Bulletpoints, nur relevante Auszüge (siehe Prompt Engineering).
- Zusammenfassen in Stufen: Erst grob, dann gezielt nachfragen (hierarchische Summaries).
- RAG einsetzen: Mit RAG (Retrieval-Augmented Generation) werden nur die passendsten Textstellen aus einer Wissensbasis nachgeladen, statt alles in den Prompt zu kopieren.
- Embeddings & Vektorsuche: Über Embeddings und eine Vektordatenbank (Vector Database) findest du relevante Passagen effizient und kontextsparend.
Was kostet ein großes Kontextfenster?
Ein größeres Kontextfenster ist oft teurer, weil mehr Tokens verarbeitet werden. In vielen Preismodellen zahlst du pro Input- und Output-Token. Mehr Kontext kann zwar bessere Antworten ermöglichen, erhöht aber Kosten und Latenz. Deshalb lohnt sich ein bewusstes „Kontext-Management“: nur das senden, was wirklich nötig ist.
Merksatz: Das Kontextfenster ist der „Arbeitsgedächtnis-Rahmen“ eines Modells. Wer ihn klug nutzt (kürzen, strukturieren, RAG), bekommt stabilere Ergebnisse bei geringeren Kosten.