AAllgemein

Anonymisierung & Pseudonymisierung

Verfahren zur Entfernung/Ersetzung personenbezogener Daten

Anonymisierung und Pseudonymisierung sind Verfahren, um personenbezogene Daten zu entfernen oder so zu ersetzen, dass Personen nicht (oder nur noch sehr eingeschränkt) identifiziert werden können. Anonymisierung zielt auf eine irreversible Entkopplung von der Person ab. Pseudonymisierung ersetzt Identifikatoren durch Platzhalter, bleibt aber grundsätzlich rückführbar (z. B. über eine Zuordnungstabelle) und ist daher weiterhin Datenschutz-relevant.

Was bedeutet Anonymisierung?

Bei der Anonymisierung werden Daten so verarbeitet, dass eine Identifizierung einer Person nicht mehr möglich ist – auch nicht mit vertretbarem Aufwand oder durch Kombination mit weiteren Daten. In der Praxis ist das anspruchsvoll, weil Re-Identifikation oft über indirekte Merkmale (Alter, PLZ, Jobtitel, Zeitstempel) gelingt. Typische Methoden sind Generalisierung (z. B. „30–40“ statt „37“), Aggregation (z. B. Gruppenwerte statt Einzelwerte) oder das Entfernen seltener Merkmalskombinationen.

Was bedeutet Pseudonymisierung?

Pseudonymisierung ersetzt direkte Identifikatoren (Name, E-Mail, Kundennummer) durch ein Pseudonym (Token/Hash/ID). Der entscheidende Punkt: Es gibt eine Möglichkeit zur Rückführung, wenn z. B. ein „Key“ oder eine Mapping-Tabelle existiert. Dadurch sinkt das Risiko bei Verarbeitung und Analyse, aber es bleibt personenbezogen im Sinne der DSGVO. Pseudonymisierung ist besonders nützlich, wenn Systeme Daten noch verarbeiten müssen (Support, Analytik, ML-Pipelines), ohne dass Mitarbeitende oder Tools die Identität sehen.

Wie funktioniert das in KI-Workflows?

In KI-Setups (z. B. mit ChatGPT oder einem Large Language Model (LLM)) entsteht Risiko, sobald Prompts, Logs, Trainingsdaten oder Retrieval-Inhalte personenbezogene Daten enthalten. Ein typischer Schutz-Flow sieht so aus:

  • 1) Erkennen: PII per Regeln/ML erkennen (z. B. PII Detection (PII-Erkennung)).
  • 2) Transformieren: Schwärzen oder ersetzen (z. B. PII Redaction (PII-Schwärzung) bzw. Tokenisierung/Pseudonyme).
  • 3) Verarbeiten: Das LLM sieht nur bereinigte Daten; Logging wird minimiert.
  • 4) Rückführung (nur falls nötig): Nur autorisierte Systeme lösen Pseudonyme wieder auf.

Beispiele (praxisnah)

  • Support-Automation: In einem n8n-Workflow werden E-Mail, Telefonnummer und Kundennummer vor dem LLM-Aufruf pseudonymisiert (z. B. KUNDE_48291). Das Modell erstellt eine Antwortvorlage; erst danach werden die Platzhalter serverseitig wieder eingefügt.
  • RAG / Wissensdatenbank: Bei RAG (Retrieval-Augmented Generation) sollten Dokumente vor dem Einbetten in Embeddings bereinigt werden, damit keine PII in der Vektordatenbank (Vector Database) landet. Anonymisierung ist hier oft besser als reine Pseudonymisierung, weil Vektoren semantische Rückschlüsse erlauben können.
  • Analytics & Monitoring: Für Model Monitoring & Observability (LLMOps) werden Prompt-Logs häufig pseudonymisiert oder gekürzt, um Debugging zu ermöglichen, ohne Klartext-PII zu speichern.

Warum ist das wichtig?

Beide Verfahren reduzieren Datenschutz- und Sicherheitsrisiken: weniger Datenabfluss, geringere Folgen bei Leaks und bessere Compliance (siehe Datenschutz (DSGVO/GDPR) & KI). Gerade bei generativer KI ist das zentral, weil Prompts, Kontextfenster und Tool-Ausgaben schnell sensible Inhalte enthalten können. Pseudonymisierung ist oft der pragmatische Standard in produktiven Prozessen; echte Anonymisierung ist ideal, aber schwer nachweisbar und muss gegen Re-Identifikationsrisiken getestet werden (z. B. durch Angriffs-/Rekonstruktionsanalysen).

Merksatz

Anonymisierung = nicht mehr zurückführbar. Pseudonymisierung = zurückführbar, aber geschützt. In KI-Projekten ist die richtige Wahl meist eine Kombination aus Erkennung, Redaction/Tokenisierung, striktem Logging und Governance (z. B. AI Governance).