RAllgemein

RAG Evaluation (RAG-Evaluierung)

Messung von Retrieval-Qualität, Antworttreue und Quellenabdeckung in RAG-Systemen.

RAG Evaluation (RAG-Evaluierung) ist die systematische Messung, ob ein RAG (Retrieval-Augmented Generation)-System die richtigen Informationen findet (Retrieval-Qualität), diese korrekt in Antworten nutzt (Antworttreue/Faithfulness) und die relevanten Quellen ausreichend abdeckt (Quellenabdeckung). Ziel ist, Halluzinationen zu reduzieren, die Verlässlichkeit zu erhöhen und Änderungen an Daten, Prompts oder Modellen objektiv zu vergleichen.

Was bedeutet RAG Evaluation konkret?

In RAG-Pipelines arbeiten mindestens zwei Komponenten zusammen: ein Retriever (z. B. Vector Search (Vektorsuche) / Semantic Search über Embeddings in einer Vektordatenbank (Vector Database)) und ein Generator (meist ein Large Language Model (LLM)). RAG-Evaluierung prüft daher nicht nur „Ist die Antwort gut?“, sondern auch „Kam die Antwort aus den richtigen Dokumenten?“ und „Wurde korrekt zitiert?“ – besonders wichtig bei Support-Bots, Wissensdatenbanken oder Enterprise Search.

Wie funktioniert RAG-Evaluierung? (typischer Ablauf)

1) Testfälle definieren: Fragen/Tasks plus Erwartung (Ground Truth) und ggf. erlaubte Quellen (z. B. aus einem Golden Dataset (Goldstandard-Datensatz) bzw. Ground Truth (Referenzwahrheit)).
2) Retrieval messen: Prüfen, ob relevante Chunks in Top-k auftauchen (Recall@k/Hit@k), wie präzise die Treffer sind (Precision@k) und ob Re-Ranking hilft (z. B. Re-Ranking (Neu-Rangordnung)).
3) Generation messen: Bewerten, ob die Antwort durch den Kontext gedeckt ist (Faithfulness), ob sie die Frage vollständig beantwortet (Completeness) und ob sie korrekt zitiert (z. B. Citations (Quellenangaben) in LLMs).
4) Regression & Monitoring: Änderungen an Prompt Engineering, Chunking oder Modellen gegen Baselines testen (z. B. Regression Testing für Prompts/Agents), später in Produktion beobachten (z. B. Model Monitoring & Observability (LLMOps)).

Wichtige Metriken: Retrieval, Treue, Abdeckung

Retrieval-Qualität: Findet das System die relevanten Textstellen? Typisch sind Recall@k, MRR oder nDCG. Häufige Ursachen für schlechte Werte: falsches Chunking (Text-Chunking), ungeeignete Embeddings, fehlende Hybrid-Strategie (z. B. Hybrid Search (BM25 + Vektor) mit BM25 (Keyword Retrieval)) oder unpassende Filter.
Antworttreue (Faithfulness/Grounding): Sind Aussagen in der Antwort durch den bereitgestellten Kontext belegbar? Das adressiert direkt Halluzinationen (Hallucinations). Praktisch wird oft per LLM-as-a-Judge, Claim-Checking oder strengen Zitierregeln geprüft.
Quellenabdeckung: Deckt die Antwort alle notwendigen Quellen/Aspekte ab (z. B. mehrere Richtlinien, Versionen, Produktvarianten)? Gerade bei Compliance- oder Policy-Fragen ist „nur eine Quelle“ oft zu wenig.

Beispiel aus der Praxis

Ein interner HR-Chatbot beantwortet: „Wie viele Urlaubstage habe ich in der Probezeit?“ Die RAG-Evaluierung prüft: (a) ob die richtige Betriebsvereinbarung im Top-5 Retrieval ist, (b) ob die Antwort exakt den relevanten Passus wiedergibt, (c) ob eine korrekte Quelle zitiert wird und (d) ob Sonderfälle (Teilzeit, Tarifvertrag) abgedeckt sind. So lassen sich Änderungen wie neues Chunking oder ein anderer Retriever objektiv bewerten, statt nur „gefühlt“ bessere Antworten zu sehen.

Warum ist RAG Evaluation wichtig?

Ohne Evaluierung ist RAG-Optimierung blind: Ein neues Large Language Model (LLM) kann Antworten „schöner“ formulieren, aber retrieval-bedingt häufiger falsch liegen. RAG-Evaluierung schafft messbare Qualität, reduziert Risiko (z. B. falsche Policy-Auskünfte) und ist ein Kernbaustein von zuverlässigen LLM-Anwendungen und Governance.

Was kostet RAG-Evaluierung?

Die Kosten hängen vor allem von (1) der Größe des Testsets, (2) der Bewertungsmethode (Menschen vs. LLM-Judges), (3) der Anzahl Modell-/Retriever-Varianten und (4) Tokenverbrauch ab. Kleine Setups starten oft mit wenigen Dutzend Golden-Questions und automatisierten Checks; umfangreiche Programme kombinieren Human Reviews, A/B-Tests und laufendes Monitoring.

← Zurück zur Übersicht