DAllgemein

Data Labeling (Datenlabeling)

Manuelle/automatische Annotation von Daten für Training und Evals

Data Labeling (Datenlabeling) ist die manuelle oder (teil-)automatische Annotation von Rohdaten – z. B. Texten, Bildern, Audio oder Logdaten – damit KI-Modelle daraus lernen oder zuverlässig bewertet werden können. Labels können Klassen ("Spam"/"Nicht-Spam"), Markierungen (Bounding Boxes), Entitäten (Namen/Orte) oder Qualitätsurteile ("hilfreich"/"nicht hilfreich") sein.

Was bedeutet Data Labeling konkret?

Beim Data Labeling werden Daten mit einer „Bedeutungsschicht“ versehen: Ein Mensch oder ein Modell ordnet einem Datenpunkt eine Zielinformation zu, die später als Ground Truth dient. Diese Referenz ist zentral für Training, Validierung und Tests – besonders bei Evaluation (Eval) & Benchmarking, wo Modelle gegen definierte Kriterien verglichen werden.

Wie funktioniert Data Labeling? (typischer Prozess)

  • 1) Ziel definieren: Welche Aufgabe soll die KI lösen (Klassifikation, Extraktion, Ranking, Moderation)? Welche Label-Typen werden gebraucht?
  • 2) Label-Guidelines erstellen: Klare Regeln, Beispiele, Grenzfälle und Entscheidungshilfen, damit mehrere Annotator:innen konsistent arbeiten.
  • 3) Daten auswählen & vorbereiten: Sampling, Deduplizierung, ggf. PII-Entfernung (z. B. PII Redaction (PII-Schwärzung)) und Formatierung.
  • 4) Annotieren (Human / Auto / Hybrid): Manuell, model-unterstützt (Pre-Labeling) oder aktiv lernend (Active Learning).
  • 5) Qualitätssicherung: Double-Labeling, Inter-Annotator-Agreement, Review-Queues, Gold-Checks (z. B. Golden Dataset (Goldstandard-Datensatz)).
  • 6) Nutzung im ML-Workflow: Training/Fine-Tuning (z. B. Fine-Tuning, LoRA), Evals, Monitoring und Regressionstests.

Beispiele (LLM-, Automations- und Unternehmenskontext)

Warum ist Data Labeling so wichtig?

Die Label-Qualität bestimmt direkt die Modellleistung: Unklare Guidelines, Bias, Datenlecks oder inkonsistente Annotationen führen zu schlechter Generalisierung, falschen Evals und riskanten Entscheidungen. Sauberes Labeling ist außerdem ein Governance-Thema (z. B. Nachvollziehbarkeit, Auditierbarkeit) und berührt oft Datenschutz (DSGVO/GDPR) & KI sowie AI Governance.

Was kostet Data Labeling?

Die Kosten hängen stark ab von Datentyp, Komplexität, benötigter Expertise und Qualitätsniveau. Einfache Textklassifikation kann günstig sein, während medizinische Annotation, rechtliche Bewertungen oder präzises Bounding-Box-Labeling deutlich teurer werden. Häufig treiben Guidelines, QA (Doppelannotation/Review) und Iterationen die Kosten – nicht nur das „Klicken“ der Labels.