PAllgemein

Prompt Caching (Antwort-/Prompt-Cache)

Zwischenspeichern von Prompts/Outputs zur Kosten- und Latenzreduktion.

Prompt Caching (Antwort-/Prompt-Cache) bedeutet, dass identische oder sehr ähnliche Prompts und/oder die dazugehörigen Modell-Outputs zwischengespeichert werden, um bei повторten Anfragen nicht erneut ein Large Language Model (LLM) auszuführen. Das reduziert Kosten (weniger Tokens/Calls) und Latenz (schnellere Antworten) – besonders in Automationen, Chatbots und agentischen Workflows.

Was bedeutet Prompt Caching konkret?

In KI-Anwendungen entstehen viele wiederkehrende Anfragen: gleiche System-Prompts, identische FAQ-Fragen, standardisierte Klassifizierungen oder feste Ausgabenformate. Beim Prompt Caching wird das Ergebnis einer Anfrage (oder ein Teil davon) gespeichert und bei einem „Cache-Hit“ direkt zurückgegeben. Man unterscheidet dabei häufig:

  • Response-/Output-Cache: Speichert die komplette Antwort eines Modells zu einem Prompt.
  • Prompt-/Prefix-Cache: Speichert wiederkehrende Prompt-Teile (z. B. Systemprompt, Richtlinien, lange Kontexte), damit sie nicht jedes Mal vollständig verarbeitet werden müssen.
  • Semantisches Caching: Nutzt Ähnlichkeit (z. B. über Embeddings) statt exakter Gleichheit, um „fast gleiche“ Fragen auf denselben Cache-Eintrag abzubilden.

Wie funktioniert Prompt Caching? (Schritt-für-Schritt)

  • 1) Normalisieren: Prompt bereinigen (Whitespace, Variablen, Zeitstempel) und ggf. strukturieren (z. B. JSON), damit gleiche Inhalte gleich aussehen.
  • 2) Cache-Key bilden: Hash aus Modellname, Temperatur, Systemprompt, Prompttext, Tools/Settings und ggf. Datenversion.
  • 3) Nachschlagen: Cache prüfen (In-Memory, Redis, Datenbank).
  • 4) Cache-Hit: Antwort sofort ausliefern (Millisekunden statt Sekunden).
  • 5) Cache-Miss: Modell ausführen, Ergebnis speichern (mit TTL/Expiry) und zurückgeben.

Warum ist Prompt Caching wichtig?

  • Kosten: Weniger Inference-Aufrufe und Token-Verbrauch (relevant bei hohem Traffic oder langen Prompts, z. B. mit RAG (Retrieval-Augmented Generation))
  • Performance: Deutlich geringere Antwortzeit, wichtig für UX in ChatGPT-ähnlichen Interfaces oder Support-Bots.
  • Stabilität: Entlastet Rate-Limits und reduziert Lastspitzen bei Kampagnen oder Batch-Jobs.

Typische Use Cases (mit Beispielen)

  • FAQ & Support: „Wie setze ich mein Passwort zurück?“ wird tausendfach gestellt – Antwort aus dem Cache.
  • Automation mit n8n: In Workflows werden oft gleiche Klassifizierungen/Extraktionen ausgeführt (z. B. „Kategorie dieser E-Mail“).
  • Agenten & Tools: Bei AI Agents (KI-Agenten) können wiederkehrende Planungs- oder Zusammenfassungs-Schritte gecacht werden, bevor Function Calling / Tool Use ausgelöst wird.
  • RAG-Pipelines: Zwischenspeichern von Retrieval-Ergebnissen oder finalen Antworten für identische Queries (mit klarer Versionierung der Wissensbasis).

Worauf muss man achten? (Fallstricke)

  • Stale Content: Bei Änderungen an Policies, Daten oder Prompts muss der Cache invalidiert werden (Versionierung, TTL).
  • Personalisierung: User-spezifische Inhalte dürfen nicht „falsch“ geteilt werden (Cache-Key muss User/Scope enthalten).
  • Datenschutz: Sensible Daten nicht unverschlüsselt cachen; Aufbewahrung/TTL an Datenschutz (DSGVO/GDPR) & KI ausrichten.
  • Determinismus: Hohe Temperatur führt zu variierenden Antworten – Caching ist dann weniger sinnvoll oder braucht klare Regeln (z. B. nur bei temp=0).

Was kostet Prompt Caching?

Das Caching selbst ist meist günstig (z. B. Redis/DB-Kosten), der große Hebel liegt in eingesparter Inference. Die Kosten hängen vor allem von Cache-Storage, Hit-Rate, TTL und dem Anteil langer Prompts ab. In der Praxis lohnt es sich besonders bei wiederkehrenden Anfragen und hohen Token-Kosten.