Model Routing (Intelligent Routing)
Model Routing (Intelligent Routing) ist die automatische Auswahl des am besten passenden KI-Modells pro Anfrage – basierend auf Kriterien wie Kosten, Latenz, Kontextlänge, Genauigkeit oder Sicherheitsanforderungen. Statt immer dasselbe Large Language Model (LLM) zu nutzen, entscheidet ein „Router“ dynamisch, welches Modell (oder welche Modellkette) die Aufgabe am effizientesten erfüllt.
Was bedeutet Model Routing?
Der Begriff beschreibt eine Routing-Logik, die eingehende Prompts klassifiziert und an ein geeignetes Modell weiterleitet. „Intelligent“ heißt: Die Entscheidung ist daten- oder regelbasiert (oder beides) und berücksichtigt Zielwerte wie Budget, Antwortqualität, Ausfallsicherheit und Compliance (z. B. Datenresidenz).
Wie funktioniert Model Routing?
- 1) Anfrage analysieren: Der Router bewertet Prompt-Typ (z. B. Zusammenfassung, Coding, Extraktion), Länge/Tokenbedarf (siehe Token (Tokens) & Tokenisierung (Tokenization)) und Risiko (z. B. PII).
- 2) Anforderungen ableiten: Qualitätsniveau, gewünschte Latenz (siehe Latency (Latenz) & Throughput), benötigtes Kontextfenster (siehe Kontextfenster (Context Window)), Tool-Use/Function Calling (siehe Function Calling / Tool Use) oder Multimodalität (siehe Multimodale KI (Multimodal AI)).
- 3) Modell auswählen: Z. B. ein günstiges „Fast“-Modell für Standardfragen, ein Reasoning-Modell für komplexe Aufgaben (siehe Reasoning Models (Reasoning-Modelle)), oder ein On-Prem/Edge-Modell bei Datenschutzanforderungen (siehe On-Device AI (Edge AI)).
- 4) Optional: Fallbacks & Eskalation: Wenn das erste Modell unsicher ist oder scheitert (Timeout/Rate Limit), wird auf ein alternatives Modell gewechselt; oft mit Retry-Strategie (siehe API Rate Limits (Ratenbegrenzung)).
- 5) Messen & verbessern: Qualität, Kosten und Fehlerraten werden überwacht (siehe Model Monitoring & Observability (LLMOps)) und die Routing-Regeln per Evaluation (Eval) & Benchmarking nachjustiert.
Warum ist Model Routing wichtig?
In der Praxis unterscheiden sich Modelle stark: manche sind günstig und schnell, andere liefern bessere Ergebnisse, benötigen aber mehr Tokens oder sind langsamer. Model Routing optimiert diese Trade-offs automatisch. Das senkt Kosten (siehe Cost Optimization (Token-Kostenoptimierung)) und hält gleichzeitig SLAs ein (siehe SLA & SLO (Service Level Objectives)) – besonders in produktiven Chatbots, Support-Automationen oder Agenten-Workflows (siehe AI Agents (KI-Agenten), Agentic Workflow (Agenten-Workflow)).
Beispiele aus der Praxis (LLM, Automation, n8n)
- Kundensupport-Chat: Standardfragen laufen über ein günstiges Modell; Reklamationen oder rechtlich heikle Themen werden an ein stärkeres Modell plus Guardrails geleitet (siehe Guardrails (KI-Leitplanken)) und ggf. an Human-in-the-Loop eskaliert (siehe Human-in-the-Loop (HITL)).
- Dokumentenverarbeitung: Für Extraktion wird ein Modell mit zuverlässigen strukturierten Ausgaben genutzt (siehe Structured Outputs (JSON Schema), Schema Validation (JSON-Schema-Validierung)). Für lange PDFs wird ein Modell mit großem Kontextfenster gewählt oder mit RAG (Retrieval-Augmented Generation) kombiniert.
- n8n-Workflows: In n8n kann Routing als If/Else-Logik umgesetzt werden: kurze Klassifikation → günstiges Modell; komplexe Planung → Reasoning-Modell; bei sensiblen Daten → internes Modell/Region-Fix (siehe Datenschutz (DSGVO/GDPR) & KI, Data Residency (Datenresidenz)).
Was kostet Model Routing?
Die Routing-Logik selbst ist meist „günstig“ (Regeln, kleiner Klassifikator), die Einsparung entsteht durch weniger Nutzung teurer Modelle. Kostenfaktoren sind: Anzahl Requests, Tokenvolumen, Routing-Komplexität (z. B. mehrstufige Ketten), Monitoring/Evals sowie mögliche Mehrkosten durch Fallbacks. Typisch ist ein Setup, das ein Premium-Modell nur für einen kleinen Prozentsatz der Anfragen nutzt, aber die Gesamtqualität stabil hält.
Als verwandter Begriff wird oft Model Router (Modell-Routing) verwendet: Das ist die konkrete Komponente (Service/Layer), die Model Routing technisch umsetzt – ähnlich einem API-Gateway, nur spezialisiert auf KI-Modelle.