Prompt Caching (Antwort-/Prompt-Cache)
Prompt Caching (Antwort-/Prompt-Cache) bedeutet, dass identische oder sehr ähnliche Prompts und/oder die dazugehörigen Modell-Outputs zwischengespeichert werden, um bei повторten Anfragen nicht erneut ein Large Language Model (LLM) auszuführen. Das reduziert Kosten (weniger Tokens/Calls) und Latenz (schnellere Antworten) – besonders in Automationen, Chatbots und agentischen Workflows.
Was bedeutet Prompt Caching konkret?
In KI-Anwendungen entstehen viele wiederkehrende Anfragen: gleiche System-Prompts, identische FAQ-Fragen, standardisierte Klassifizierungen oder feste Ausgabenformate. Beim Prompt Caching wird das Ergebnis einer Anfrage (oder ein Teil davon) gespeichert und bei einem „Cache-Hit“ direkt zurückgegeben. Man unterscheidet dabei häufig:
- Response-/Output-Cache: Speichert die komplette Antwort eines Modells zu einem Prompt.
- Prompt-/Prefix-Cache: Speichert wiederkehrende Prompt-Teile (z. B. Systemprompt, Richtlinien, lange Kontexte), damit sie nicht jedes Mal vollständig verarbeitet werden müssen.
- Semantisches Caching: Nutzt Ähnlichkeit (z. B. über Embeddings) statt exakter Gleichheit, um „fast gleiche“ Fragen auf denselben Cache-Eintrag abzubilden.
Wie funktioniert Prompt Caching? (Schritt-für-Schritt)
- 1) Normalisieren: Prompt bereinigen (Whitespace, Variablen, Zeitstempel) und ggf. strukturieren (z. B. JSON), damit gleiche Inhalte gleich aussehen.
- 2) Cache-Key bilden: Hash aus Modellname, Temperatur, Systemprompt, Prompttext, Tools/Settings und ggf. Datenversion.
- 3) Nachschlagen: Cache prüfen (In-Memory, Redis, Datenbank).
- 4) Cache-Hit: Antwort sofort ausliefern (Millisekunden statt Sekunden).
- 5) Cache-Miss: Modell ausführen, Ergebnis speichern (mit TTL/Expiry) und zurückgeben.
Warum ist Prompt Caching wichtig?
- Kosten: Weniger Inference-Aufrufe und Token-Verbrauch (relevant bei hohem Traffic oder langen Prompts, z. B. mit RAG (Retrieval-Augmented Generation))
- Performance: Deutlich geringere Antwortzeit, wichtig für UX in ChatGPT-ähnlichen Interfaces oder Support-Bots.
- Stabilität: Entlastet Rate-Limits und reduziert Lastspitzen bei Kampagnen oder Batch-Jobs.
Typische Use Cases (mit Beispielen)
- FAQ & Support: „Wie setze ich mein Passwort zurück?“ wird tausendfach gestellt – Antwort aus dem Cache.
- Automation mit n8n: In Workflows werden oft gleiche Klassifizierungen/Extraktionen ausgeführt (z. B. „Kategorie dieser E-Mail“).
- Agenten & Tools: Bei AI Agents (KI-Agenten) können wiederkehrende Planungs- oder Zusammenfassungs-Schritte gecacht werden, bevor Function Calling / Tool Use ausgelöst wird.
- RAG-Pipelines: Zwischenspeichern von Retrieval-Ergebnissen oder finalen Antworten für identische Queries (mit klarer Versionierung der Wissensbasis).
Worauf muss man achten? (Fallstricke)
- Stale Content: Bei Änderungen an Policies, Daten oder Prompts muss der Cache invalidiert werden (Versionierung, TTL).
- Personalisierung: User-spezifische Inhalte dürfen nicht „falsch“ geteilt werden (Cache-Key muss User/Scope enthalten).
- Datenschutz: Sensible Daten nicht unverschlüsselt cachen; Aufbewahrung/TTL an Datenschutz (DSGVO/GDPR) & KI ausrichten.
- Determinismus: Hohe Temperatur führt zu variierenden Antworten – Caching ist dann weniger sinnvoll oder braucht klare Regeln (z. B. nur bei temp=0).
Was kostet Prompt Caching?
Das Caching selbst ist meist günstig (z. B. Redis/DB-Kosten), der große Hebel liegt in eingesparter Inference. Die Kosten hängen vor allem von Cache-Storage, Hit-Rate, TTL und dem Anteil langer Prompts ab. In der Praxis lohnt es sich besonders bei wiederkehrenden Anfragen und hohen Token-Kosten.