Data Lineage (Datenherkunft)
Data Lineage (Datenherkunft) beschreibt die nachvollziehbare „Reisekette“ von Daten: wo sie entstehen, aus welchen Quellen sie stammen, wie sie transformiert, zusammengeführt und genutzt werden – bis hin zum Ergebnis in einem Report, Feature-Store oder KI-Output. Ziel ist Transparenz, Auditierbarkeit und Vertrauen in Daten und Modelle.
Was bedeutet Data Lineage konkret?
„Lineage“ heißt Abstammung/Verlauf. In der Praxis ist Data Lineage eine Dokumentation (oft automatisiert), die für Datensätze, Tabellen, Spalten oder sogar einzelne Felder zeigt: Quelle → Verarbeitungsschritte → Ziel. Dazu gehören Metadaten wie Zeitpunkte, Verantwortliche, Tools/Jobs, Versionen und Regeln (z. B. Filter, Joins, Aggregationen).
Wie funktioniert Data Lineage? (typischer Ablauf)
- Erfassen der Quellen: z. B. CRM, Webtracking, Ticketsystem, Dateien, APIs, Datenbanken.
- Protokollieren der Verarbeitung: ETL/ELT-Jobs, SQL-Queries, Transformationen, Validierungen, Anreicherungen.
- Verknüpfen von Abhängigkeiten: Welche Tabelle/Spalte speist welche andere? Welche Pipeline erzeugt welches Artefakt?
- Versionierung & Zeitbezug: Welche Daten- und Code-Version war aktiv, als ein Ergebnis erzeugt wurde?
- Visualisierung & Abfrage: Graph/Diagramm oder Suchfunktion („Woher kommt dieses Feld?“ / „Was hängt davon ab?“).
Warum ist Data Lineage in KI-Projekten so wichtig?
In KI-Systemen (z. B. mit Large Language Model (LLM), RAG (Retrieval-Augmented Generation), Embeddings und Vektordatenbank (Vector Database)) entscheidet die Datenqualität direkt über Output-Qualität, Risiko und Compliance. Data Lineage hilft dabei:
- Halluzinationen zu reduzieren: Wenn du weißt, welche Quellen im Retrieval genutzt wurden, kannst du Lücken, veraltete Dokumente oder falsche Chunks identifizieren (siehe Halluzinationen (Hallucinations)).
- Fehler schneller zu finden: Bei falschen Antworten oder Kennzahlen kannst du rückwärts verfolgen, welcher Schritt (z. B. Join-Regel, Filter, Parser) den Fehler verursacht hat.
- Governance & Compliance zu erfüllen: Nachweise für AI Governance sowie Anforderungen rund um Datenschutz (DSGVO/GDPR) & KI (z. B. welche personenbezogenen Daten wo verarbeitet wurden).
- Reproduzierbarkeit sicherzustellen: Besonders relevant bei Evals, Monitoring und Modelländerungen (z. B. Evaluation (Eval) & Benchmarking und Model Monitoring & Observability (LLMOps)).
Beispiele (AI, Automation, n8n)
- RAG-Chatbot: Ein Nutzer fragt in ChatGPT-ähnlicher UX nach einer Richtlinie. Lineage zeigt: PDF „Policy_v3“ → OCR/Parsing → Chunking → Embedding-Modell-Version → Index in Vektordatenbank → Retrieval → Prompt → Antwort. So kannst du belegen, warum die Antwort so entstand.
- n8n-Automation: Ein n8n-Workflow zieht Leads aus einem Formular, reichert sie per API an, schreibt ins CRM und triggert eine E-Mail. Data Lineage dokumentiert, welche Felder aus welcher Quelle kamen, welche Regeln angewandt wurden und wohin sie gespeichert wurden (wichtig für Debugging und DSGVO).
- Feature/Training-Daten: Für ein Klassifikationsmodell wird ein Feature „Kaufwahrscheinlichkeit“ aus Bestellungen, Support-Tickets und Webevents berechnet. Lineage macht sichtbar, welche Rohdaten und Transformationen in welches Feature eingeflossen sind – entscheidend bei Drift-Analysen.
Abgrenzung: Data Lineage vs. Data Provenance
Oft werden beide Begriffe vermischt: Provenance betont stärker den Ursprung und die „Beweiskette“ (inkl. Verantwortlichkeiten und Kontext), während Lineage häufig den technischen Fluss und die Abhängigkeiten in Pipelines beschreibt. In modernen Data-Stacks gehen beide Konzepte praktisch ineinander über.
Best Practices (kurz)
- Automatisieren statt manuell pflegen: Lineage direkt aus Queries, Jobs, Orchestrierung und Logs ableiten.
- Bis zur Feld-/Spaltenebene denken: Gerade bei PII und KPI-Definitionen.
- Versionen & Zeitpunkte speichern: Daten, Code, Embedding-Modelle, Prompt-Versionen (siehe Prompt Versioning (Prompt-Versionierung)).
- Mit Observability koppeln: Traces/Logs machen Lineage im Betrieb wirklich nutzbar (siehe Observability Traces (Distributed Tracing)).