PAllgemein

Prompt Compression (Prompt-Kompression)

Techniken, um Kontext zu verdichten und Tokens zu sparen

Prompt Compression (Prompt-Kompression) bezeichnet Techniken, mit denen Informationen für ein Large Language Model (LLM) so verdichtet werden, dass weniger Tokens verbraucht werden, ohne dass wichtige Bedeutung verloren geht. Ziel ist es, Kontext effizienter zu übertragen – etwa bei langen Chats, großen Dokumenten, AI Agents (KI-Agenten)-Workflows oder Automatisierungen mit n8n – und dadurch Kosten, Latenz und Kontextfenster-Probleme zu reduzieren.

Was bedeutet Prompt Compression?

„Compression“ meint hier nicht (nur) klassische Datenkompression, sondern eine inhaltliche Verdichtung: redundante Details entfernen, Struktur verbessern, Prioritäten klar machen und Informationen so umformulieren, dass ein Modell wie ChatGPT sie schneller und zuverlässiger nutzen kann. Prompt-Kompression kann manuell (durch gutes Prompt Engineering) oder (teil-)automatisiert erfolgen, z. B. durch Zusammenfassungs- und Extraktionsschritte.

Wie funktioniert Prompt-Kompression?

1) Relevanz filtern: Nur Informationen behalten, die für die aktuelle Aufgabe nötig sind (z. B. Anforderungen, Einschränkungen, Beispiele, Definitionen).
2) Redundanz entfernen: Wiederholungen, Smalltalk, irrelevante Historie und doppelte Regeln streichen.
3) Strukturieren statt erzählen: Inhalte in Listen, Tabellen-ähnliche Bulletpoints, Key-Value-Formate oder klare Abschnitte überführen.
4) Abstraktion & Zusammenfassung: Lange Passagen in prägnante Kernaussagen verdichten (z. B. „3 Risiken“ statt „2 Seiten Erklärung“).
5) Exakte Constraints formulieren: Output-Format, Ton, Do’s/Don’ts kurz und eindeutig angeben, um Rückfragen zu vermeiden.

Beispiele aus der Praxis

Chat-Verlauf komprimieren: Statt 30 Nachrichten wird ein „Conversation Memory“ erzeugt: Ziele, offene Punkte, Entscheidungen, wichtige Fakten. Das reduziert Tokens und senkt das Risiko, dass das Modell Nebensächlichkeiten höher gewichtet.

RAG-Pipelines optimieren: In RAG (Retrieval-Augmented Generation) werden häufig mehrere Textchunks an das Modell gegeben. Prompt-Kompression bedeutet hier z. B. Top-K-Quellen strenger zu wählen, Passagen zu extrahieren (nur die relevanten Sätze) oder ein „evidence summary“ zu erzeugen, bevor der finale Prompt gebaut wird. Das hängt eng mit Embeddings und der Vektordatenbank (Vector Database) zusammen.

Tool-/Agenten-Workflows: Bei Function Calling / Tool Use können Tool-Beschreibungen, Parameter und Beispiele sehr lang sein. Kompression heißt: nur benötigte Tools aktivieren, Beschreibungen kürzen, Parameter strikt definieren und Ergebnisse der Tools wiederum zusammenfassen, bevor sie zurück ins Modell gehen.

Warum ist Prompt-Kompression wichtig?

Kosten: Weniger Tokens bedeuten meist geringere Inference-Kosten (siehe Inference).
Geschwindigkeit: Kürzere Prompts reduzieren Latenz – besonders relevant in Echtzeit-Apps und Automatisierungen (Automatisierung (Automation), n8n).
Zuverlässigkeit: Weniger „Rauschen“ kann Halluzinationsrisiken senken (siehe Halluzinationen (Hallucinations)) und die Befolgung von Regeln verbessern.
Skalierung & Governance: Kompakte, standardisierte Prompt-Templates erleichtern Auditierbarkeit und Richtlinienkonformität (siehe AI Governance, Datenschutz (DSGVO/GDPR) & KI).

Grenzen und typische Fehler

Zu aggressive Kompression kann wichtige Nuancen entfernen: Anforderungen werden unklar, Quellenbezüge fehlen, oder Sicherheits-/Compliance-Hinweise gehen verloren. Gute Prompt-Kompression ist daher immer ein Balanceakt zwischen Kürze und ausreichender Spezifikation – oft mit Tests, Versionierung und Qualitätsmetriken (z. B. Antworttreue, Fehlerrate) im Sinne von MLOps.

← Zurück zur Übersicht