Agent Evaluation (Agent Evals)
Agent Evaluation (Agent Evals) sind systematische Tests, mit denen man die Leistung von KI-Agenten daran misst, ob sie ein Ziel zuverlässig erreichen – bei kontrollierten Kosten sowie unter Sicherheits- und Robustheitsanforderungen. Im Unterschied zu klassischen Modell-Benchmarks prüfen Agent Evals nicht nur „gute Antworten“, sondern komplettes Handeln: Planen, Tool-Nutzung, Fehlerbehandlung und das Einhalten von Regeln.
Was bedeutet Agent Evaluation (Agent Evals)?
„Agent Evaluation“ bezeichnet das Messen und Bewerten von Agentenverhalten in realistischen Aufgaben. Ein Agent kann z. B. auf einem Large Language Model (LLM) basieren, über Function Calling / Tool Use Tools ansteuern (Web, Datenbank, Kalender, Ticketsystem) und in einem Agentic Workflow (Agenten-Workflow) mehrere Schritte ausführen. Agent Evals beantworten dabei Fragen wie: Hat der Agent das richtige Ergebnis geliefert? Hat er unnötige Tools genutzt? Hat er Sicherheitsgrenzen eingehalten? Wie stabil ist er bei Variationen der Eingabe?
Wie funktioniert Agent Evaluation?
- 1) Testfälle definieren: Aufgaben mit klaren Zielen (z. B. „Erstelle ein Angebot und sende es als Entwurf“), inklusive Randbedingungen (Budget, Zeit, Richtlinien).
- 2) Erwartung/Referenz festlegen: „Ground Truth“ oder Akzeptanzkriterien, oft mit Golden Dataset (Goldstandard-Datensatz) und Ground Truth (Referenzwahrheit).
- 3) Ausführen & protokollieren: Agent läuft mit Tools, Memory und Kontext. Traces helfen über Model Monitoring & Observability (LLMOps) und Observability Traces (Distributed Tracing).
- 4) Scoring: Automatisch (Regeln, Schema-Checks, Unit-Tests) und/oder menschlich (Rubrics). Häufig kombiniert mit Evaluation (Eval) & Benchmarking.
- 5) Regression & Vergleich: Änderungen an Prompt, Tools oder Modell werden via Regression Testing für Prompts/Agents und ggf. A/B-Tests bewertet.
Welche Metriken werden typischerweise geprüft?
- Zielerreichung: Task Success Rate, Qualitätsrubrics, Korrektheit (z. B. bei RAG (Retrieval-Augmented Generation) auch Quellen/Belege).
- Kosten: Tokenverbrauch, Tool-Kosten, Laufzeit; oft gekoppelt an Cost Optimization (Token-Kostenoptimierung).
- Sicherheit & Compliance: Widerstand gegen Prompt Injection/Jailbreak, Umgang mit PII (z. B. PII Redaction (PII-Schwärzung)) und Governance-Anforderungen wie AI Governance oder Datenschutz (DSGVO/GDPR) & KI.
- Robustheit: Stabilität bei Tippfehlern, Mehrdeutigkeiten, Ausfällen von Tools/APIs, Rate Limits (siehe API Rate Limits (Ratenbegrenzung)), sowie bei veränderten Kontexten.
- Tool-Verhalten: Richtige Tool-Wahl, korrekte Parameter, keine Endlosschleifen, sinnvolle Retry-Strategie.
Beispiele aus der Praxis (LLM, Automation, n8n)
Ein Support-Agent in n8n soll Tickets klassifizieren, Kundendaten prüfen und eine Antwort entwerfen. Agent Evals testen dann u. a.: (a) korrekte Kategorie, (b) keine Halluzinationen (siehe Halluzinationen (Hallucinations)), (c) ob sensible Daten nicht im Klartext ausgegeben werden, und (d) ob die Kosten pro Ticket im Zielkorridor bleiben. Ein weiteres Beispiel: Ein Sales-Agent soll Termine vorschlagen und Kalenderkonflikte prüfen—Evals messen Erfolg, Fehlbuchungen, Tool-Calls und Latenz.
Warum sind Agent Evals wichtig?
Agenten wirken „autonom“, sind aber fehleranfällig: kleine Prompt-Änderungen, neue Tools oder Modell-Updates können Verhalten stark verändern. Agent Evals schaffen Vertrauen, indem sie Qualität, Sicherheit und Kosten messbar machen—und sind damit ein Kernbaustein für skalierbare Agenten in Produktion.