Prompt-Response Logging (LLM-Logging)
Prompt-Response Logging (LLM-Logging) ist die strukturierte Protokollierung von Eingaben (Prompts), Ausgaben (Responses) und Kontextdaten bei der Nutzung eines Large Language Model (LLM). Ziel ist es, LLM-Anwendungen nachvollziehbar zu machen – für Debugging, Evaluation (Eval) & Benchmarking, Qualitätssicherung, Security-Analysen und Audits. Richtig umgesetzt liefert Logging eine „Blackbox-Aufnahme“ jeder Modellinteraktion, ohne unnötig sensible Daten zu speichern.
Was bedeutet Prompt-Response Logging konkret?
Beim LLM-Logging werden nicht nur Prompt und Antwort gespeichert, sondern oft auch Metadaten wie Modellname/Version, Parameter (z. B. Temperatur), Token-Verbrauch, Latenz, Tool-Aufrufe und Fehler. In Agenten- oder Workflow-Setups (z. B. AI Agents (KI-Agenten) oder n8n) umfasst Logging häufig mehrere Schritte: Prompt-Ketten, Zwischenresultate, Retrieval-Kontext (z. B. aus RAG (Retrieval-Augmented Generation)) und die finalen Outputs.
Wie funktioniert Prompt-Response Logging? (typischer Ablauf)
- 1) Capture: Beim Request werden Prompt, Systemkontext (z. B. System Prompt (Systemanweisung)) und relevante Variablen erfasst.
- 2) Enrichment: Metadaten werden ergänzt: Modell/Provider, Parameter, Session-ID, User/Workflow, Latenz, Token, Kosten, Trace-ID (für Model Monitoring & Observability (LLMOps)).
- 3) Redaction & Policy: Sensible Inhalte werden erkannt/geschwärzt (z. B. PII Redaction (PII-Schwärzung), Data Loss Prevention (DLP) für KI) und Retention-Regeln angewandt.
- 4) Storage: Logs landen in einem zentralen Speicher (z. B. Datenbank, Log-Backend) und sind such- und filterbar.
- 5) Analyse: Auswertung für Debugging, Evals, Drift, Prompt-Regressionen (z. B. Regression Testing für Prompts/Agents) und Compliance.
Wofür braucht man LLM-Logging? (Beispiele)
- Debugging: Wenn ein ChatGPT-ähnlicher Bot falsche Antworten liefert, zeigen Logs, welcher Prompt, welcher Kontext (z. B. RAG-Chunks) und welche Parameter genutzt wurden.
- Evals & Qualität: Mit Logs lassen sich reale Nutzeranfragen in Testsets überführen (z. B. „Golden Dataset“) und systematisch bewerten.
- Audit & Governance: Für AI Governance und regulatorische Anforderungen (z. B. EU AI Act) sind Nachvollziehbarkeit, Versionierung und Entscheidungswege zentral.
- Sicherheit: Erkennung von Prompt Injection-Mustern, Jailbreak-Versuchen oder Prompt Leakage (Prompt-Datenabfluss).
- Kosten & Performance: Token- und Latenz-Analyse zur Cost Optimization (Token-Kostenoptimierung) und zum Einhalten von SLOs.
Was sollte ein guter Log-Eintrag enthalten?
- Prompt/Response (ggf. gekürzt), Rollen (System/User/Tool), Conversation State
- Modell, Version, Provider, Parameter (Temperatur, Top-p), Kontextfenster-Nutzung
- Tool-/Function-Calls (siehe Function Calling / Tool Use), Inputs/Outputs, Fehlercodes
- Retrieval-Daten: Query, Treffer-IDs, Scores (bei Vector Search (Vektorsuche) / Semantic Search)
- Operational: Latenz, Tokens, Kosten, Request-ID/Trace-ID
Datenschutz & Risiken (wichtig!)
LLM-Logs können personenbezogene Daten, Geschäftsgeheimnisse oder API-Keys enthalten. Deshalb sind klare Logging-Policies entscheidend: Minimierung, Pseudonymisierung, Verschlüsselung, Zugriffskontrollen, kurze Aufbewahrungsfristen und automatische PII-Erkennung. Im Kontext von Datenschutz (DSGVO/GDPR) & KI gilt: Nur loggen, was du wirklich brauchst – und immer mit Zweckbindung.
Praxisbeispiel (Automation)
In einem n8n-Workflow verarbeitet ein LLM eingehende Support-Tickets, ruft per Tool Use eine Wissensdatenbank ab (RAG) und erzeugt eine Antwort. Prompt-Response Logging speichert pro Ticket: den bereinigten Prompt, die genutzten Dokument-IDs, die Tool-Outputs, die finale Antwort sowie Token/Kosten. So lassen sich Fehlantworten reproduzieren, Prompt-Änderungen vergleichen (A/B) und Compliance-Anfragen beantworten.