CAllgemein

Citations (Quellenangaben) in LLMs

Ausgabe von Belegen/Links zu genutzten Quellen in Antworten.

Citations (Quellenangaben) in LLMs sind Verweise (z. B. Links, Dokumenttitel oder Fundstellen), die ein Large Language Model (LLM) in seiner Antwort ausgibt, um zu zeigen, auf welche Quellen sich Aussagen stützen. Ziel ist mehr Transparenz, bessere Nachprüfbarkeit und weniger Risiko durch falsche oder erfundene Inhalte.

Was bedeutet „Citations“ bei LLMs?

Im KI-Kontext meint „Citation“ nicht nur eine klassische wissenschaftliche Zitierweise, sondern jede Form von Beleg, der dem Nutzer ermöglicht, Informationen zu verifizieren: URL, Dokumentname, Abschnitt, Seitenzahl, Datenbankeintrag oder interne Wissensartikel. Besonders relevant ist das, weil generative Modelle ohne Belege plausibel klingende, aber falsche Aussagen erzeugen können (siehe Halluzinationen (Hallucinations)).

Wie funktionieren Quellenangaben in der Praxis?

Reine Basismodelle „wissen“ beim Generieren nicht automatisch, welche konkrete Quelle zu welchem Satz gehört. Verlässliche Citations entstehen deshalb meist durch Kombination mit Retrieval und Tools:

  • 1) Dokumente bereitstellen: z. B. PDFs, Webseiten, interne Wikis oder Datenbanken.
  • 2) Retrieval: Ein System wie RAG (Retrieval-Augmented Generation) sucht passende Textstellen (Chunks) zu einer Nutzerfrage.
  • 3) Antwort generieren: Das LLM formuliert die Antwort auf Basis der gefundenen Passagen.
  • 4) Belege ausgeben: Das System hängt Quellen an (z. B. „Quelle 1: Dokument X, Abschnitt Y“ oder klickbare Links).

Technisch werden dafür häufig Embeddings und eine Vektordatenbank (Vector Database) genutzt, um relevante Passagen schnell zu finden. Je nach Umsetzung können Citations auf Chunk-Ebene (Textabschnitt) oder Dokument-Ebene (nur der Dokumentlink) erfolgen.

Warum sind Citations wichtig?

  • Vertrauen & Nachvollziehbarkeit: Nutzer können Aussagen prüfen und weiterführend lesen.
  • Qualitätssicherung: Teams erkennen schneller, ob Antworten auf veralteten oder falschen Quellen beruhen.
  • Compliance & Governance: In regulierten Umfeldern unterstützen Belege Audits und Richtlinien (z. B. AI Governance, EU AI Act).
  • Datenschutz & Rechte: Quellen helfen zu dokumentieren, woher Informationen stammen – wichtig im Zusammenspiel mit Datenschutz (DSGVO/GDPR) & KI.

Beispiele für Citations in KI-Workflows

  • Support-Chatbot: Antwortet zu Rückgaberegeln und verlinkt die interne Policy-Seite plus Abschnitt „Widerruf“.
  • Sales/Pre-Sales Assistant: Zitiert Produktdatenblatt und Preis-/Leistungsübersicht, statt nur zu „behaupten“.
  • Automatisierung: In n8n-Workflows werden bei jeder KI-Antwort die verwendeten Dokument-IDs mitprotokolliert (Audit-Trail) – oft in Kombination mit Function Calling / Tool Use.

Wichtige Grenzen und Best Practices

  • Citations sind nicht automatisch „Wahrheit“: Eine Quelle kann irrelevant, veraltet oder missverstanden sein. Gute Systeme erzwingen, dass Aussagen nur aus den gelieferten Passagen abgeleitet werden.
  • Granularität zählt: Besser Abschnitt/Seitenzahl statt nur „Website XY“.
  • Prompting & Regeln: Mit Prompt Engineering lässt sich festlegen, dass jede Kernbehauptung einen Beleg braucht.
  • Monitoring: Regelmäßige Tests (z. B. Stichproben) reduzieren Fehlzitate und verbessern Retrieval-Qualität.

Zusammengefasst sind Citations ein zentraler Baustein, um LLM-Antworten überprüfbar zu machen – besonders in Kombination mit RAG (Retrieval-Augmented Generation) und toolbasierten Workflows.