Latency Budget (Latenzbudget)
Ein Latency Budget (Latenzbudget) ist die maximal zulässige Antwortzeit, die eine KI-Funktion vom Nutzer-Request bis zur finalen Ausgabe benötigen darf. Es definiert eine klare Obergrenze (z. B. 300 ms, 2 s oder 10 s), damit ein System in einem bestimmten Use Case „schnell genug“ ist – etwa in Chat, Suche, Automatisierung oder Echtzeit-Entscheidungen.
Was bedeutet „Latency Budget“ konkret?
„Latency“ ist die Verzögerung, „Budget“ ist der verfügbare Zeitrahmen. Ein Latenzbudget ist damit eine Zeitvorgabe, die Teams wie ein „Zeitkonto“ auf einzelne Komponenten aufteilen: Netzwerk, Datenzugriff, Modell-Inferenz, Tool-Aufrufe, Postprocessing und Rendering. Besonders bei Large Language Model (LLM)-Anwendungen entscheidet das Budget darüber, ob eine Antwort als „flüssig“ wahrgenommen wird oder Nutzer abspringen.
Wie funktioniert ein Latenzbudget in KI-Systemen?
- 1) Budget festlegen: Aus dem Use Case ableiten (z. B. Chat: „erste Tokens in < 1 s“, Gesamtausgabe < 5 s).
- 2) Budget aufteilen: Zeitanteile pro Schritt definieren (z. B. 200 ms Routing, 800 ms Retrieval, 2 s Inferenz).
- 3) Messen & überwachen: P50/P95/P99-Latenzen tracken (typisch: P95 als Ziel, P99 als Notfallgrenze).
- 4) Maßnahmen bei Überschreitung: Caching, kürzere Prompts, kleinere Modelle, Parallelisierung, Streaming, Fallbacks.
Woraus setzt sich die Latenz in LLM-Workflows zusammen?
In der Praxis entsteht Latenz selten nur im Modell. Typische Bausteine sind:
- Netzwerk & API: Roundtrips zum LLM-Provider, TLS, Rate Limits.
- Preprocessing: Prompt-Aufbau, Kontextselektion, Tokenisierung.
- Retrieval: Suche in Vektordatenbank (Vector Database) über Embeddings (bei RAG (Retrieval-Augmented Generation)).
- Tool Use: Externe Aufrufe via Function Calling / Tool Use (z. B. CRM, Websuche, Datenbank).
- Inference: Rechenzeit des Modells (Token-Output ist oft der größte Treiber).
- Postprocessing: Formatierung, Validierung, Guardrails, Logging.
Warum ist ein Latenzbudget wichtig?
Ein klares Latenzbudget macht Performance planbar und verhindert, dass KI-Features „zufällig“ langsam werden. Es verbessert User Experience, senkt Abbruchraten und hilft, Kosten zu kontrollieren: Lange Antworten bedeuten mehr Tokens, mehr Tool-Calls und oft höhere Infrastrukturkosten. Außerdem ist es zentral für zuverlässige Automatisierung, z. B. in n8n-Workflows oder bei AI Agents (KI-Agenten), die mehrere Schritte nacheinander ausführen.
Beispiele aus der Praxis
- Customer Support Chat: Budget 5 s Gesamt, aber „Time-to-first-token“ < 1 s durch Streaming; bei komplexen Fällen wird ein „Ich prüfe das kurz…“ Zwischenstatus ausgegeben.
- RAG-Suche im Intranet: Budget 2 s; Retrieval darf max. 500 ms dauern, sonst Fallback auf reine Keyword-Suche oder kleinere Top-K.
- Automation in Automatisierung (Automation): Budget 10–30 s; wichtiger ist P99-Stabilität, plus Retries und Timeouts pro Tool-Call.
Wie optimiert man ein Latenzbudget?
- Kontext reduzieren: Kürzere Prompts, bessere Selektion statt „alles anhängen“ (siehe Prompt Engineering).
- Retrieval tunen: Top-K, Chunk-Größe, Index, Caching in RAG (Retrieval-Augmented Generation).
- Modellwahl: Kleineres Modell für Standardfälle, großes Modell nur bei Bedarf; ggf. Fine-Tuning/LoRA für Effizienz.
- Parallelisieren: Tool-Aufrufe parallel statt seriell, wo möglich.
- Fallbacks: Timeouts, degradierte Antworten, „best effort“ statt Blockieren.
Damit wird das Latency Budget zu einem praktischen Steuerungsinstrument, um Fletchergebnis, Kosten und Nutzererlebnis in KI-Produkten in ein belastbares Gleichgewicht zu bringen.