DAllgemein

Data Retention (Datenaufbewahrung) bei KI-Providern

Regeln, wie lange Prompts/Outputs gespeichert und zu Trainingszwecken genutzt werden.

Data Retention (Datenaufbewahrung) bei KI-Providern beschreibt die Regeln und technischen Einstellungen, wie lange ein KI-Anbieter Eingaben (Prompts), Ausgaben (Outputs), Anhänge und Metadaten speichert – und ob diese Daten zur Qualitätsverbesserung oder zum Training von Generative KI (Generative AI) bzw. Large Language Model (LLM)-Systemen verwendet werden dürfen. Für Unternehmen ist das zentral, weil daraus Datenschutz-, Compliance- und IP-Risiken entstehen können.

Was wird bei KI-Providern typischerweise gespeichert?

Je nach Anbieter und Produkt (Chat-Oberfläche vs. API) kann Data Retention unterschiedliche Datenarten umfassen:

Wie funktioniert Data Retention in der Praxis?

  • 1) Produktmodus wählen: Chat-Produkte speichern oft länger (z. B. für „History“), APIs häufig kürzer und stärker konfigurierbar.
  • 2) Retention-Window definieren: z. B. 0 Tage (keine Speicherung), 7/30/90 Tage oder „bis zur Löschung durch den Nutzer“.
  • 3) Training/Improvement steuern: Opt-in/Opt-out, getrennt nach „Service Improvement“ vs. „Model Training“. Wichtig: „nicht fürs Training“ heißt nicht automatisch „gar nicht gespeichert“.
  • 4) Zugriff & Löschung regeln: Rollen, Audit-Logs, Export/Deletion-Prozesse und ggf. rechtliche Aufbewahrungspflichten.

Warum ist Data Retention wichtig (DSGVO, Risiko, IP)?

Data Retention berührt direkt Datenschutz (DSGVO/GDPR) & KI: Je länger und je breiter Daten gespeichert werden, desto höher sind Anforderungen an Rechtsgrundlage, Transparenz, Betroffenenrechte, TOMs und Auftragsverarbeitung. Außerdem steigt das Risiko, dass vertrauliche Informationen (Kundendaten, Quellcode, Verträge) in Logs, Support-Tickets oder Trainingspipelines landen. In sicherheitskritischen Szenarien hilft kurze Retention auch gegen Datenabfluss über Fehlkonfigurationen, Prompt-Leaks oder Incident-Scopes (siehe Prompt Leakage (Prompt-Datenabfluss)).

Beispiele aus dem Alltag (Automation & LLM-Apps)

Best Practices (kurz & praxisnah)

  • Retention minimieren: so kurz wie möglich, so lang wie nötig.
  • Training deaktivieren: wenn vertrauliche Daten verarbeitet werden; Bedingungen vertraglich fixieren.
  • Datenklassifizierung & Redaction: PII/Secrets vor Versand entfernen (siehe Secrets Management (Schlüsselverwaltung)).
  • Data Residency prüfen: Speicherort/Region und Subprozessoren (vgl. Data Residency (Datenresidenz)).
  • Governance: Policies, Auditierbarkeit und Verantwortlichkeiten über AI Governance und ggf. Anforderungen aus dem EU AI Act.

Unterm Strich ist Data Retention bei KI-Providern eine Kombination aus Produktfeature, Sicherheitsmaßnahme und Compliance-Entscheidung: Sie bestimmt, ob KI-Nutzung im Unternehmen „nur Verarbeitung“ bleibt oder ob Daten dauerhaft in Systemen des Providers weiterleben.