Data Classification (Datenklassifizierung)
Data Classification (Datenklassifizierung) ist die systematische Einstufung von Daten nach ihrem Schutzbedarf – z.B. „öffentlich“, „intern“, „vertraulich“ oder „streng vertraulich“. Ziel ist, je Klasse passende Sicherheitsmaßnahmen (Zugriff, Verschlüsselung, Logging, Aufbewahrung) festzulegen, um Datenabfluss, Compliance-Verstöße und KI-bezogene Risiken zu vermeiden.
Im KI-Kontext ist Datenklassifizierung besonders wichtig, weil Daten häufig in Tools, Workflows und Modelle „wandern“: Prompts, Chat-Verläufe, hochgeladene Dokumente, Vektorspeicher, Trainingsdaten oder Automationen (z.B. über n8n). Ohne klare Klassen kann vertraulicher Inhalt unbemerkt in externe APIs, in ein Large Language Model (LLM) oder in eine Vektordatenbank (Vector Database) gelangen.
Wie funktioniert Data Classification?
- 1) Dateninventar & Quellen: Identifizieren, wo Daten entstehen (CRM, Tickets, E-Mails, Files, Logs, Chat-Tools) und wie sie in KI-Use-Cases genutzt werden (z.B. RAG (Retrieval-Augmented Generation), Zusammenfassungen, Extraktion).
- 2) Klassenschema definieren: Typisch sind 3–5 Stufen (z.B. Öffentlich / Intern / Vertraulich / Streng vertraulich) plus Regeln, was in welche Klasse fällt.
- 3) Kriterien festlegen: Personenbezug (PII), Geschäftsgeheimnisse, Vertragsdaten, Sicherheitsrelevanz, regulatorische Anforderungen (z.B. Datenschutz (DSGVO/GDPR) & KI).
- 4) Kennzeichnen (Labeling): Manuell (Dokument-Header, Metadaten) oder automatisiert via DLP/Scanner, PII Detection (PII-Erkennung) und Policies.
- 5) Kontrollen je Klasse: Zugriff (RBAC), Verschlüsselung, Aufbewahrungsfristen, Freigaben, Protokollierung, Weitergabe an Drittanbieter, Prompt-/Output-Regeln.
- 6) Durchsetzung in KI-Pipelines: Guardrails, Filter, Maskierung (z.B. PII Redaction (PII-Schwärzung)), sowie Block/Allow-Listen für Tools und Endpunkte.
Beispiele für Klassen (praxisnah)
- Öffentlich: Marketing-Texte, veröffentlichte Produktinfos. Darf meist in externe KI-Tools, auch in ChatGPT-ähnliche Systeme, sofern Nutzungsbedingungen passen.
- Intern: Prozessdokumente, interne FAQs. Nutzung in Unternehmens-KI ok, aber idealerweise mit Zugriffskontrolle und Logging.
- Vertraulich: Kundenlisten, Angebote, nicht öffentliche Zahlen. Nur in freigegebenen KI-Umgebungen, ggf. mit Data Residency (Datenresidenz) und strengen Berechtigungen.
- Streng vertraulich: Passwörter/Secrets, M&A-Daten, Security-Incidents, Schlüsselmaterial. Sollte nicht in Prompts, Tickets oder externe Services; erfordert starke Isolation und Secrets Management (Schlüsselverwaltung).
Warum ist Data Classification in KI & Automation wichtig?
KI-Systeme erhöhen die „Verteilungsfläche“ von Daten: Ein Prompt kann sensible Inhalte enthalten, ein AI Agents (KI-Agenten)-Workflow kann Daten an Tools weiterreichen, und bei RAG (Retrieval-Augmented Generation) werden Dokumente in Chunks und Embeddings transformiert und gespeichert. Ohne Klassifizierung fehlt die Grundlage, um z.B. „vertrauliche Daten dürfen nicht in externe APIs“ technisch sicher durchzusetzen oder um AI Governance-Vorgaben und den EU AI Act-Rahmen sauber zu erfüllen.
Typische Maßnahmen je Klasse (KI-spezifisch)
- Prompt-Policies: Welche Klassen dürfen in Prompts/Uploads? Was muss vorab anonymisiert werden?
- DLP für KI: Einsatz von Data Loss Prevention (DLP) für KI zur Erkennung/Blockierung sensibler Inhalte.
- RAG-Schutz: Zugriff auf Vektorsuche nur nach Berechtigung; getrennte Indizes je Klasse; Audit-Logs.
- Tool-Grenzen: Agenten dürfen streng vertrauliche Daten nicht an externe Tools weitergeben (Tool-Allowlist, Agent Sandbox (Tool-Sandboxing)).
Richtig umgesetzt ist Datenklassifizierung kein „Papierprozess“, sondern ein praktisches Steuerungsinstrument: Sie macht KI-Use-Cases skalierbar, reduziert Sicherheits- und Compliance-Risiken und schafft klare Leitplanken für Mitarbeitende, Automationen und Modelle.