Data Retention (Datenaufbewahrung) bei KI-Providern
Data Retention (Datenaufbewahrung) bei KI-Providern beschreibt die Regeln und technischen Einstellungen, wie lange ein KI-Anbieter Eingaben (Prompts), Ausgaben (Outputs), Anhänge und Metadaten speichert – und ob diese Daten zur Qualitätsverbesserung oder zum Training von Generative KI (Generative AI) bzw. Large Language Model (LLM)-Systemen verwendet werden dürfen. Für Unternehmen ist das zentral, weil daraus Datenschutz-, Compliance- und IP-Risiken entstehen können.
Was wird bei KI-Providern typischerweise gespeichert?
Je nach Anbieter und Produkt (Chat-Oberfläche vs. API) kann Data Retention unterschiedliche Datenarten umfassen:
- Prompts & Outputs: der eigentliche Text (oder Bild/Audio) der Anfrage und Antwort.
- Konversationsverlauf: Chat-Thread inkl. Kontextfenster und Systemhinweisen (z. B. System Prompt (Systemanweisung)).
- Metadaten: Zeitstempel, Tokenanzahl, Modellversion, Fehlercodes, Sicherheitsklassifizierungen.
- Telemetrie/Logs: Debug- und Missbrauchserkennung, Rate-Limit-Events (vgl. API Rate Limits (Ratenbegrenzung)).
- Artefakte aus Tools/Workflows: Tool-Calls, Zwischenergebnisse in Agenten- oder Automationsketten (z. B. Function Calling / Tool Use, AI Agents (KI-Agenten), n8n, Automatisierung (Automation)).
Wie funktioniert Data Retention in der Praxis?
- 1) Produktmodus wählen: Chat-Produkte speichern oft länger (z. B. für „History“), APIs häufig kürzer und stärker konfigurierbar.
- 2) Retention-Window definieren: z. B. 0 Tage (keine Speicherung), 7/30/90 Tage oder „bis zur Löschung durch den Nutzer“.
- 3) Training/Improvement steuern: Opt-in/Opt-out, getrennt nach „Service Improvement“ vs. „Model Training“. Wichtig: „nicht fürs Training“ heißt nicht automatisch „gar nicht gespeichert“.
- 4) Zugriff & Löschung regeln: Rollen, Audit-Logs, Export/Deletion-Prozesse und ggf. rechtliche Aufbewahrungspflichten.
Warum ist Data Retention wichtig (DSGVO, Risiko, IP)?
Data Retention berührt direkt Datenschutz (DSGVO/GDPR) & KI: Je länger und je breiter Daten gespeichert werden, desto höher sind Anforderungen an Rechtsgrundlage, Transparenz, Betroffenenrechte, TOMs und Auftragsverarbeitung. Außerdem steigt das Risiko, dass vertrauliche Informationen (Kundendaten, Quellcode, Verträge) in Logs, Support-Tickets oder Trainingspipelines landen. In sicherheitskritischen Szenarien hilft kurze Retention auch gegen Datenabfluss über Fehlkonfigurationen, Prompt-Leaks oder Incident-Scopes (siehe Prompt Leakage (Prompt-Datenabfluss)).
Beispiele aus dem Alltag (Automation & LLM-Apps)
- Support-Chatbot mit RAG (Retrieval-Augmented Generation): Wenn Prompts Kunden-PII enthalten, sollte Retention minimal sein und PII vorab entfernt werden (vgl. PII Redaction (PII-Schwärzung), PII Detection (PII-Erkennung)).
- n8n-Workflow für Rechnungsdaten: Outputs können sensible Felder enthalten; wichtig ist, ob der Provider diese Inhalte in Debug-Logs speichert und wie lange.
- Prompt-Experimente/Monitoring: Für Evaluation (Eval) & Benchmarking oder Model Monitoring & Observability (LLMOps) werden oft Prompts gespeichert – hier braucht es klare Policies, Maskierung und Zugriffskontrollen.
Best Practices (kurz & praxisnah)
- Retention minimieren: so kurz wie möglich, so lang wie nötig.
- Training deaktivieren: wenn vertrauliche Daten verarbeitet werden; Bedingungen vertraglich fixieren.
- Datenklassifizierung & Redaction: PII/Secrets vor Versand entfernen (siehe Secrets Management (Schlüsselverwaltung)).
- Data Residency prüfen: Speicherort/Region und Subprozessoren (vgl. Data Residency (Datenresidenz)).
- Governance: Policies, Auditierbarkeit und Verantwortlichkeiten über AI Governance und ggf. Anforderungen aus dem EU AI Act.
Unterm Strich ist Data Retention bei KI-Providern eine Kombination aus Produktfeature, Sicherheitsmaßnahme und Compliance-Entscheidung: Sie bestimmt, ob KI-Nutzung im Unternehmen „nur Verarbeitung“ bleibt oder ob Daten dauerhaft in Systemen des Providers weiterleben.