Prompt Routing (Prompt-Routing)
Prompt Routing (Prompt-Routing) ist die automatische Auswahl des passenden Prompts, Modells oder einer Prompt-Kette pro Nutzeranfrage – basierend auf Intent (z. B. „FAQ“, „Code“, „Support“), Kontext, Kosten-/Latenzzielen und vor allem Risiko (z. B. PII, Compliance, Safety). Ziel ist, Antworten zuverlässiger, günstiger und sicherer zu machen, ohne dass Nutzer manuell „den richtigen Prompt“ wählen müssen.
Was bedeutet Prompt Routing?
„Routing“ heißt hier: Eine Anfrage wird zuerst klassifiziert (z. B. Thema, Komplexität, Sensitivität) und dann an die beste „Route“ geschickt. Eine Route kann sein: ein bestimmtes Large Language Model (LLM), ein spezielles Prompt Template (Prompt-Vorlage), eine Prompt Chaining (Prompt-Ketten)-Logik, ein RAG (Retrieval-Augmented Generation)-Flow oder ein Agenten-Workflow mit Tools (z. B. Function Calling / Tool Use).
Wie funktioniert Prompt Routing?
- 1) Intake & Signale sammeln: Nutzertext, Sprache, Kanal (Chat/Email), Metadaten (Kunde/Region), ggf. Conversation State.
- 2) Klassifikation & Risiko-Scoring: Erkennen von Kategorien (Support, Sales, Tech), Komplexität (kurz vs. reasoning-intensiv) und Risiken (z. B. PII, rechtliche Beratung). Häufig kombiniert mit Content Filtering / Safety Classifier und PII Detection (PII-Erkennung).
- 3) Policy-Entscheidung: Regeln/Heuristiken oder ein Router-Modell (siehe Model Router (Modell-Routing)) entscheidet: welches Modell, welcher Prompt, ob RAG (Retrieval-Augmented Generation) nötig ist, ob Tools erlaubt sind, ob Human Review nötig ist (siehe Human-in-the-Loop (HITL)).
- 4) Ausführung der Route: Prompt/Chain wird ausgeführt, ggf. mit Retrieval, Tool Calls, Schema-Ausgabe (z. B. Structured Outputs (JSON Schema)).
- 5) Guardrails & Post-Checks: Output-Filter, Zitations-/Grounding-Checks (siehe Grounding (Faktenverankerung), Citations (Quellenangaben) in LLMs), Logging & Monitoring (siehe Model Monitoring & Observability (LLMOps)).
Warum ist Prompt Routing wichtig?
- Qualität: Ein „One-Prompt-fits-all“ führt häufiger zu Halluzinationen (Hallucinations). Routing kann z. B. bei Wissensfragen automatisch RAG (Retrieval-Augmented Generation) aktivieren.
- Kosten & Latenz: Ein günstiges, schnelles Modell für Standardfragen; ein stärkeres Reasoning-Modell nur bei Bedarf (siehe Cost Optimization (Token-Kostenoptimierung), Latency (Latenz) & Throughput).
- Sicherheit & Compliance: Sensible Anfragen können strenger behandelt werden (PII schwärzen via PII Redaction (PII-Schwärzung), strengere Guardrails (KI-Leitplanken), ggf. Datenresidenz beachten: Data Residency (Datenresidenz), Datenschutz (DSGVO/GDPR) & KI).
- Skalierbarkeit: Teams können neue Routen (Prompts/Chains) versionieren und testen (siehe Prompt Versioning (Prompt-Versionierung), A/B Testing für Prompts (Prompt Experiments)).
Beispiele aus der Praxis
- Kundensupport: „Wo ist meine Bestellung?“ → günstiges Modell + kurzer Support-Prompt. „Reklamation mit Rechnung im Anhang“ → OCR/Document-Flow (siehe OCR (Optical Character Recognition), Document AI (Intelligent Document Processing, IDP)) + PII-Checks + strukturierte Ausgabe.
- Unternehmenswissen: „Wie ist unsere Reisekostenrichtlinie?“ → automatisch RAG (Retrieval-Augmented Generation) mit internen Dokumenten + Zitaten.
- Automation (z. B. in n8n): Anfrage klassifizieren → Route „Ticket erstellen“ nutzt Tool Calling, Route „FAQ antworten“ bleibt rein textbasiert (siehe Automatisierung (Automation), Workflow Orchestration (Workflow-Orchestrierung)).
Was kostet Prompt Routing?
Die direkten Kosten hängen meist nicht vom „Routing“ selbst ab, sondern von den gewählten Modellen/Tools und der Implementierung. Typische Kostentreiber sind: zusätzlicher Klassifikationsschritt (extra Inferenz), Retrieval/Vector Search (siehe Vector Search (Vektorsuche) / Semantic Search), Tool-Aufrufe sowie Monitoring/Evals. In vielen Setups spart Routing dennoch Geld, weil teure Modelle nur bei komplexen oder riskanten Fällen genutzt werden.