AI Act: Logging & Record-Keeping
AI Act: Logging & Record-Keeping bezeichnet die Protokollierungs- und Aufzeichnungspflichten des EU AI Act, die sicherstellen sollen, dass KI-Systeme nachvollziehbar, überprüfbar und auditierbar sind. Gemeint ist: Wichtige Ereignisse rund um Daten, Modellverhalten, Entscheidungen und Betrieb werden so dokumentiert, dass Behörden, Auditoren und interne Compliance-Teams Risiken bewerten und Vorfälle aufklären können.
Was bedeutet Logging & Record-Keeping im EU AI Act?
„Logging“ ist die laufende Protokollierung technischer Ereignisse (z. B. Eingaben, Systemzustände, Fehlermeldungen). „Record-Keeping“ meint die strukturierte, langfristige Aufbewahrung relevanter Unterlagen und Nachweise (z. B. Konfigurationen, Versionen, Tests, Freigaben). Im Kontext des EU AI Act ist das besonders für Hochrisiko-KI wichtig: Ohne belastbare Logs und Aufzeichnungen lassen sich Anforderungen wie Nachvollziehbarkeit, Risikomanagement und Konformitätsbewertung praktisch nicht belegen.
Wie funktioniert das in der Praxis? (typischer Ablauf)
- 1) Festlegen, was protokolliert werden muss: Ereignisse, die Sicherheit, Fairness, Datenschutz, Modellqualität oder Entscheidungen beeinflussen (z. B. Modellwechsel, Policy-Änderungen, Tool-Aufrufe).
- 2) Technische Erfassung: Applikation, API-Gateway, Modell-Provider, Vektorsuche und Tools liefern Logs (Requests/Responses, Fehler, Latenzen, Versionen).
- 3) Schutz & Zugriffskontrolle: Logs werden manipulationssicher gespeichert, Zugriffe rollenbasiert vergeben und Änderungen nachvollziehbar gemacht.
- 4) Aufbewahrung & Löschkonzept: Retention-Perioden, Archivierung und datenschutzkonforme Löschung (insb. bei personenbezogenen Daten) werden definiert.
- 5) Auswertung & Audit: Monitoring, Stichproben, Incident-Analyse und Audit-Exports (z. B. für interne Revision oder Behördenanfragen).
Welche Informationen werden typischerweise geloggt?
Was genau erforderlich ist, hängt von Risiko, Use Case und Rolle (Provider/Deployer) ab. Häufige Kategorien sind:
- System- und Modellkontext: Modellname, Version/Checkpoint, Parameter (z. B. Temperature), Prompt-/Policy-Versionen, verwendete Prompt Templates.
- Eingaben & Ausgaben: Nutzerprompt, Systemprompt, Antwort, ggf. mit Redaction/Maskierung (z. B. via PII Redaction).
- Tool- und Agentenaktionen: bei Function Calling / Tool Use oder AI Agents (KI-Agenten): welche Tools aufgerufen wurden, mit welchen Parametern, welche Ergebnisse zurückkamen.
- Retrieval-Nachweise: bei RAG (Retrieval-Augmented Generation): welche Dokumente/Chunks genutzt wurden, Scores, Quellen (hilfreich auch für Citations (Quellenangaben) in LLMs).
- Sicherheits- und Qualitätsereignisse: Policy-Verstöße, Filterentscheidungen, Halluzinations-Indikatoren, Guardrail-Trigger (siehe Guardrails (KI-Leitplanken)) und Abbrüche.
- Betriebsdaten: Latenz, Fehlercodes, Auslastung, Kosten/Tokenverbrauch, um Stabilität und Effizienz nachzuweisen (vgl. Model Monitoring & Observability (LLMOps)).
Warum ist das wichtig (Nutzwert & Compliance)?
Logging & Record-Keeping sind der „Beweis- und Diagnose-Layer“ moderner KI. Sie helfen, Entscheidungen zu erklären, Fehler zu reproduzieren, Vorfälle zu untersuchen und Risiken zu reduzieren. Gleichzeitig kollidiert zu viel Logging schnell mit Datenschutz (DSGVO/GDPR) & KI: Deshalb sind Prinzipien wie Datenminimierung, Zweckbindung, Zugriffsbeschränkung und (wo möglich) Pseudonymisierung zentral.
Beispiele aus LLM- und Automations-Setups
- Chatbot (z. B. ChatGPT-ähnlich): Loggt Prompt- und Antwort-Hashes, Modellversion, Safety-Flags und Feedback. Volltexte nur, wenn nötig und rechtlich zulässig.
- RAG-Unternehmenssuche: Speichert Retrieval-Quellen, Re-Ranking-Entscheidungen und genutzte Dokumentversionen, um Antworten später belegen zu können.
- Automatisierung mit n8n: Protokolliert Workflow-Version, Trigger, verwendete Credentials (nicht im Klartext), Tool-Calls und Resultate, damit sich eine fehlerhafte Automationsentscheidung auditieren lässt.
Gut umgesetzt schafft Logging & Record-Keeping damit nicht nur AI-Act-Readiness, sondern auch bessere Qualität, schnellere Incident-Response und belastbare Governance (siehe AI Governance).