DAllgemein

Data Lineage (Datenherkunft)

Dokumentation, wo Daten herkommen und wie sie verarbeitet wurden

Data Lineage (Datenherkunft) beschreibt die nachvollziehbare „Reisekette“ von Daten: wo sie entstehen, aus welchen Quellen sie stammen, wie sie transformiert, zusammengeführt und genutzt werden – bis hin zum Ergebnis in einem Report, Feature-Store oder KI-Output. Ziel ist Transparenz, Auditierbarkeit und Vertrauen in Daten und Modelle.

Was bedeutet Data Lineage konkret?

„Lineage“ heißt Abstammung/Verlauf. In der Praxis ist Data Lineage eine Dokumentation (oft automatisiert), die für Datensätze, Tabellen, Spalten oder sogar einzelne Felder zeigt: Quelle → Verarbeitungsschritte → Ziel. Dazu gehören Metadaten wie Zeitpunkte, Verantwortliche, Tools/Jobs, Versionen und Regeln (z. B. Filter, Joins, Aggregationen).

Wie funktioniert Data Lineage? (typischer Ablauf)

  • Erfassen der Quellen: z. B. CRM, Webtracking, Ticketsystem, Dateien, APIs, Datenbanken.
  • Protokollieren der Verarbeitung: ETL/ELT-Jobs, SQL-Queries, Transformationen, Validierungen, Anreicherungen.
  • Verknüpfen von Abhängigkeiten: Welche Tabelle/Spalte speist welche andere? Welche Pipeline erzeugt welches Artefakt?
  • Versionierung & Zeitbezug: Welche Daten- und Code-Version war aktiv, als ein Ergebnis erzeugt wurde?
  • Visualisierung & Abfrage: Graph/Diagramm oder Suchfunktion („Woher kommt dieses Feld?“ / „Was hängt davon ab?“).

Warum ist Data Lineage in KI-Projekten so wichtig?

In KI-Systemen (z. B. mit Large Language Model (LLM), RAG (Retrieval-Augmented Generation), Embeddings und Vektordatenbank (Vector Database)) entscheidet die Datenqualität direkt über Output-Qualität, Risiko und Compliance. Data Lineage hilft dabei:

  • Halluzinationen zu reduzieren: Wenn du weißt, welche Quellen im Retrieval genutzt wurden, kannst du Lücken, veraltete Dokumente oder falsche Chunks identifizieren (siehe Halluzinationen (Hallucinations)).
  • Fehler schneller zu finden: Bei falschen Antworten oder Kennzahlen kannst du rückwärts verfolgen, welcher Schritt (z. B. Join-Regel, Filter, Parser) den Fehler verursacht hat.
  • Governance & Compliance zu erfüllen: Nachweise für AI Governance sowie Anforderungen rund um Datenschutz (DSGVO/GDPR) & KI (z. B. welche personenbezogenen Daten wo verarbeitet wurden).
  • Reproduzierbarkeit sicherzustellen: Besonders relevant bei Evals, Monitoring und Modelländerungen (z. B. Evaluation (Eval) & Benchmarking und Model Monitoring & Observability (LLMOps)).

Beispiele (AI, Automation, n8n)

  • RAG-Chatbot: Ein Nutzer fragt in ChatGPT-ähnlicher UX nach einer Richtlinie. Lineage zeigt: PDF „Policy_v3“ → OCR/Parsing → Chunking → Embedding-Modell-Version → Index in Vektordatenbank → Retrieval → Prompt → Antwort. So kannst du belegen, warum die Antwort so entstand.
  • n8n-Automation: Ein n8n-Workflow zieht Leads aus einem Formular, reichert sie per API an, schreibt ins CRM und triggert eine E-Mail. Data Lineage dokumentiert, welche Felder aus welcher Quelle kamen, welche Regeln angewandt wurden und wohin sie gespeichert wurden (wichtig für Debugging und DSGVO).
  • Feature/Training-Daten: Für ein Klassifikationsmodell wird ein Feature „Kaufwahrscheinlichkeit“ aus Bestellungen, Support-Tickets und Webevents berechnet. Lineage macht sichtbar, welche Rohdaten und Transformationen in welches Feature eingeflossen sind – entscheidend bei Drift-Analysen.

Abgrenzung: Data Lineage vs. Data Provenance

Oft werden beide Begriffe vermischt: Provenance betont stärker den Ursprung und die „Beweiskette“ (inkl. Verantwortlichkeiten und Kontext), während Lineage häufig den technischen Fluss und die Abhängigkeiten in Pipelines beschreibt. In modernen Data-Stacks gehen beide Konzepte praktisch ineinander über.

Best Practices (kurz)

  • Automatisieren statt manuell pflegen: Lineage direkt aus Queries, Jobs, Orchestrierung und Logs ableiten.
  • Bis zur Feld-/Spaltenebene denken: Gerade bei PII und KPI-Definitionen.
  • Versionen & Zeitpunkte speichern: Daten, Code, Embedding-Modelle, Prompt-Versionen (siehe Prompt Versioning (Prompt-Versionierung)).
  • Mit Observability koppeln: Traces/Logs machen Lineage im Betrieb wirklich nutzbar (siehe Observability Traces (Distributed Tracing)).