RAllgemein

RAG (Retrieval-Augmented Generation)

LLM antwortet mit externer Wissenssuche und Quellenkontext.

RAG (Retrieval-Augmented Generation) ist eine Technik, bei der ein Large Language Model (LLM) Antworten nicht nur aus seinem „gelernten“ Wissen generiert, sondern vor der Antwort gezielt externe Informationen abruft (Retrieval) und diese als Kontext für die Textgenerierung nutzt. So werden Antworten aktueller, nachvollziehbarer und oft mit Quellenbezug möglich.

Was bedeutet RAG?

„Retrieval-Augmented Generation“ bedeutet wörtlich „abruf-unterstützte Generierung“. Statt dass ein Modell rein aus dem Parametergedächtnis formuliert, kombiniert RAG zwei Schritte: (1) Wissenssuche in externen Datenquellen und (2) Generierung einer Antwort auf Basis der gefundenen Inhalte. Das ist besonders hilfreich, wenn Informationen häufig wechseln (z. B. interne Richtlinien) oder das LLM diese Inhalte nie im Training gesehen hat.

Wie funktioniert RAG?

  • 1) Anfrage verstehen: Der Nutzer stellt eine Frage (z. B. „Wie läuft unser Onboarding ab?“).
  • 2) Retrieval (Suche): Das System sucht passende Inhalte in Quellen wie Wissensdatenbanken, PDFs, Confluence/Notion, Tickets, Webseiten oder Datenbanken. Häufig passiert das über semantische Suche (Embeddings) in einer Vektordatenbank.
  • 3) Kontext bauen: Die relevantesten Textstellen („Chunks“) werden zusammengestellt, oft inklusive Metadaten (Dokumenttitel, Datum, URL).
  • 4) Generation: Das LLM erhält Frage + Kontext und formuliert eine Antwort, idealerweise mit Zitaten/Quellenangaben.
  • 5) Ausgabe & Quellen: Nutzer bekommen eine Antwort, die sich auf konkrete Fundstellen stützt – das reduziert Halluzinationen und erleichtert das Nachprüfen.

Warum ist RAG wichtig?

RAG löst ein Kernproblem vieler LLM-Anwendungen: Modelle können plausibel klingende, aber falsche Aussagen erzeugen. Durch den externen Kontext wird die Antwort stärker „grounded“ (verankert) und kann auf unternehmensinternes Wissen zugreifen. Außerdem können Inhalte aktualisiert werden, ohne das Modell neu zu trainieren – du tauschst einfach Dokumente oder Datenquellen aus.

Wofür nutzt man RAG? (Beispiele)

  • Support & FAQ: Ein Chatbot beantwortet Fragen aus Handbüchern, Helpdesk-Artikeln oder Produktdokumentation und verweist auf die passende Quelle.
  • Interne Wissenssuche: Mitarbeitende fragen nach Prozessen, Policies oder Projektwissen, das verteilt in Tools liegt.
  • Automation & Workflows: In Tools wie n8n kann RAG vor einem Schritt „E-Mail schreiben“, „Ticket zusammenfassen“ oder „Angebot formulieren“ die relevanten Infos aus CRM, Wiki oder Dateien holen.
  • Agenten-Systeme: AI Agents (KI-Agenten) nutzen RAG, um Entscheidungen auf Basis aktueller Daten zu treffen (z. B. Bestellstatus, SLA, Vertragsklauseln).

Was kostet RAG?

Die Kosten hängen weniger vom Begriff „RAG“ ab als von der Umsetzung: Anzahl/Größe der Dokumente, Indexing (Embeddings), Vektordatenbank, Suchanfragen pro Tag, Token-Kosten fürs LLM und ggf. Hosting/Datenschutzanforderungen. Typisch sind laufende Kosten pro Anfrage (Retrieval + Generierung) plus initialer Aufwand für Datenaufbereitung und Qualitätssicherung.

Merksatz: RAG macht LLMs praktischer für Unternehmen, weil Antworten auf überprüfbaren, externen Informationen basieren – statt nur auf „gefühltem“ Modellwissen.