PAllgemein

PII Detection (PII-Erkennung)

Automatische Erkennung personenbezogener Daten in Texten

PII Detection (PII-Erkennung) ist die automatische Identifikation personenbezogener Daten (Personally Identifiable Information, PII) in Texten – z. B. Namen, E-Mail-Adressen, Telefonnummern, Adressen, Kundennummern oder Ausweis-/Kontodaten. Ziel ist es, sensible Informationen zu finden, zu markieren und je nach Bedarf zu maskieren, zu entfernen oder regelkonform weiterzuverarbeiten, bevor sie in Systeme, Logs oder KI-Modelle gelangen.

Was bedeutet PII (Personally Identifiable Information)?

PII bezeichnet Informationen, mit denen eine Person direkt oder indirekt identifiziert werden kann. In der Praxis überschneidet sich das stark mit „personenbezogenen Daten“ im Sinne der DSGVO. Dazu zählen offensichtliche Daten wie „Max Mustermann“ oder „max@firma.de“, aber auch Kombinationen wie Postleitzahl + Geburtsdatum + Geschlecht, die zusammen eine Identifikation ermöglichen können.

Wie funktioniert PII Detection (typischer Prozess)?

  • 1) Dateneingang: Text kommt aus E-Mails, Chats, Tickets, Formularen, PDFs/OCR oder Transkripten.
  • 2) Erkennung: PII wird per Regeln (Regex/Pattern), Named-Entity-Recognition (NER) oder ML/LLM-gestützten Klassifikatoren erkannt.
  • 3) Klassifizierung: Einordnung nach Typ (E-Mail, Telefon, IBAN, Adresse, Person, Kundennummer) und Risikostufe.
  • 4) Aktion: Maskierung (z. B. „max@…“), Redaction (Entfernen), Tokenisierung/Pseudonymisierung oder Routing an sichere Kanäle.
  • 5) Audit & Monitoring: Protokollierung, Qualitätsmetriken (Precision/Recall), Feedback-Schleifen und kontinuierliche Anpassung.

Beispiele aus KI- und Automations-Workflows

In modernen KI-Pipelines ist PII-Erkennung oft ein „Guardrail“, bevor Inhalte an ein Large Language Model (LLM) oder Tools weitergegeben werden. Beispiele:

  • Chatbot/Support: Nutzer sendet „Meine IBAN ist …“. PII Detection erkennt IBAN und ersetzt sie durch ein Token, bevor die Anfrage an ChatGPT geht.
  • RAG-Systeme: Beim Indexieren von Dokumenten für RAG (Retrieval-Augmented Generation) wird PII vor dem Erstellen von Embeddings entfernt, damit keine sensiblen Daten in Vektorrepräsentationen und einer Vektordatenbank (Vector Database) landen.
  • Automation mit n8n: In einem Workflow werden eingehende E-Mails gescannt. Enthalten sie PII, werden sie automatisch in ein DSGVO-konformes Ticket-System geroutet und im Log nur maskiert gespeichert.
  • Tool Use / Function Calling: Bei Function Calling / Tool Use verhindert PII Detection, dass ein Agent versehentlich personenbezogene Daten an externe APIs sendet.

Warum ist PII-Erkennung wichtig?

PII Detection senkt das Risiko von Datenschutzverletzungen, reduziert „Datenabfluss“ über Logs, Prompt-Historien oder Trainingsdaten und unterstützt Compliance-Anforderungen (z. B. Datenschutz (DSGVO/GDPR) & KI). Gleichzeitig verbessert sie die Governance von KI-Systemen, etwa im Rahmen von AI Governance und regulatorischen Anforderungen wie dem EU AI Act.

Grenzen & Best Practices

PII-Erkennung ist nie perfekt: Namen können mehrdeutig sein, Formate variieren, und Kontext entscheidet (z. B. „Berlin“ als Ort vs. Firmenname). Best Practices sind: Kombination aus Regeln + ML, klare Datenklassifizierung, Tests mit realistischen Beispielen, sowie „Privacy by Design“ in Automations- und KI-Architekturen.