PAllgemein

Prompt-Response Logging (LLM-Logging)

Protokollierung von Prompts/Antworten für Debugging, Evals und Audit

Prompt-Response Logging (LLM-Logging) ist die strukturierte Protokollierung von Eingaben (Prompts), Ausgaben (Responses) und Kontextdaten bei der Nutzung eines Large Language Model (LLM). Ziel ist es, LLM-Anwendungen nachvollziehbar zu machen – für Debugging, Evaluation (Eval) & Benchmarking, Qualitätssicherung, Security-Analysen und Audits. Richtig umgesetzt liefert Logging eine „Blackbox-Aufnahme“ jeder Modellinteraktion, ohne unnötig sensible Daten zu speichern.

Was bedeutet Prompt-Response Logging konkret?

Beim LLM-Logging werden nicht nur Prompt und Antwort gespeichert, sondern oft auch Metadaten wie Modellname/Version, Parameter (z. B. Temperatur), Token-Verbrauch, Latenz, Tool-Aufrufe und Fehler. In Agenten- oder Workflow-Setups (z. B. AI Agents (KI-Agenten) oder n8n) umfasst Logging häufig mehrere Schritte: Prompt-Ketten, Zwischenresultate, Retrieval-Kontext (z. B. aus RAG (Retrieval-Augmented Generation)) und die finalen Outputs.

Wie funktioniert Prompt-Response Logging? (typischer Ablauf)

Wofür braucht man LLM-Logging? (Beispiele)

  • Debugging: Wenn ein ChatGPT-ähnlicher Bot falsche Antworten liefert, zeigen Logs, welcher Prompt, welcher Kontext (z. B. RAG-Chunks) und welche Parameter genutzt wurden.
  • Evals & Qualität: Mit Logs lassen sich reale Nutzeranfragen in Testsets überführen (z. B. „Golden Dataset“) und systematisch bewerten.
  • Audit & Governance: Für AI Governance und regulatorische Anforderungen (z. B. EU AI Act) sind Nachvollziehbarkeit, Versionierung und Entscheidungswege zentral.
  • Sicherheit: Erkennung von Prompt Injection-Mustern, Jailbreak-Versuchen oder Prompt Leakage (Prompt-Datenabfluss).
  • Kosten & Performance: Token- und Latenz-Analyse zur Cost Optimization (Token-Kostenoptimierung) und zum Einhalten von SLOs.

Was sollte ein guter Log-Eintrag enthalten?

  • Prompt/Response (ggf. gekürzt), Rollen (System/User/Tool), Conversation State
  • Modell, Version, Provider, Parameter (Temperatur, Top-p), Kontextfenster-Nutzung
  • Tool-/Function-Calls (siehe Function Calling / Tool Use), Inputs/Outputs, Fehlercodes
  • Retrieval-Daten: Query, Treffer-IDs, Scores (bei Vector Search (Vektorsuche) / Semantic Search)
  • Operational: Latenz, Tokens, Kosten, Request-ID/Trace-ID

Datenschutz & Risiken (wichtig!)

LLM-Logs können personenbezogene Daten, Geschäftsgeheimnisse oder API-Keys enthalten. Deshalb sind klare Logging-Policies entscheidend: Minimierung, Pseudonymisierung, Verschlüsselung, Zugriffskontrollen, kurze Aufbewahrungsfristen und automatische PII-Erkennung. Im Kontext von Datenschutz (DSGVO/GDPR) & KI gilt: Nur loggen, was du wirklich brauchst – und immer mit Zweckbindung.

Praxisbeispiel (Automation)

In einem n8n-Workflow verarbeitet ein LLM eingehende Support-Tickets, ruft per Tool Use eine Wissensdatenbank ab (RAG) und erzeugt eine Antwort. Prompt-Response Logging speichert pro Ticket: den bereinigten Prompt, die genutzten Dokument-IDs, die Tool-Outputs, die finale Antwort sowie Token/Kosten. So lassen sich Fehlantworten reproduzieren, Prompt-Änderungen vergleichen (A/B) und Compliance-Anfragen beantworten.