LAllgemein

Latency (Latenz) & Throughput

Antwortzeit und Durchsatz eines Modells/Systems im Betrieb.
3 Aufrufe

Latency (Latenz) und Throughput (Durchsatz) beschreiben, wie schnell und wie viel ein System im Betrieb leisten kann: Latenz ist die Zeit von der Anfrage bis zur ersten/kompletten Antwort (Antwortzeit), Throughput ist die Anzahl verarbeiteter Anfragen oder Tokens pro Zeit (z. B. Requests/s, Tokens/s). Beide Metriken sind entscheidend für Nutzererlebnis, Kosten und Skalierbarkeit von KI-Systemen.

Was ist Latency (Latenz)?

Latenz misst die Verzögerung zwischen „Request raus“ und „Response da“. In KI- und API-Setups wird oft unterschieden zwischen Time to First Byte/Token (TTFB/TTFT) und Time to Last Token (Gesamtdauer). Bei ChatGPT-ähnlichen Anwendungen ist eine niedrige TTFT besonders wichtig, weil der Nutzer schnell „Feedback“ sieht – selbst wenn die Gesamtausgabe länger dauert.

Was ist Throughput (Durchsatz)?

Throughput beschreibt, wie viele Einheiten ein System pro Zeiteinheit schafft. In KI sind das typischerweise Requests pro Sekunde (RPS) und/oder Tokens pro Sekunde (TPS). Hoher Throughput bedeutet, dass viele Nutzer parallel bedient werden können oder Batch-Jobs schnell durchlaufen.

  • Beispiel: Ein Inference-Server schafft 50 RPS bei kurzen Prompts, aber nur 5 RPS bei langen Kontexten und großen Antworten.
  • Wichtig: Throughput kann steigen, während Latenz für einzelne Nutzer schlechter wird (z. B. durch aggressives Batching).

Wie funktionieren Latenz & Throughput zusammen (Trade-off)?

Latenz und Throughput hängen eng zusammen und stehen oft in einem Zielkonflikt: Optimierungen für maximalen Durchsatz (z. B. Batch-Verarbeitung, längere Warteschlangen) erhöhen häufig die Latenz. Umgekehrt kann man Latenz senken (z. B. weniger Batching, kleinere Modelle), verliert aber Durchsatz oder zahlt mehr Infrastrukturkosten.

  • Interaktive Chats: Priorität auf niedrige TTFT und stabile Latenz (P95/P99), damit die UX „snappy“ bleibt.
  • Backoffice/Automation: Priorität auf hohen Throughput, z. B. in n8n-Flows oder bei Automatisierung (Automation), wo 2–5 Sekunden extra oft akzeptabel sind.

Warum sind Latency & Throughput wichtig in KI-Systemen?

Sie beeinflussen direkt Conversion (Wartezeit senkt Abschlussraten), Stabilität (Überlast führt zu Timeouts), und Kosten (mehr Hardware/GPUs oder höhere API-Tarife). In produktiven KI-Architekturen gehören Latenz- und Throughput-Ziele daher in Monitoring und MLOps (z. B. P95-Latenz, Error-Rate, TPS pro GPU).

  • RAG-Stacks: Retrieval über Embeddings und Vektordatenbank (Vector Database) kann Latenz hinzufügen, senkt aber oft Halluzinationen und verbessert die Antwortqualität.
  • Agenten-Workflows: AI Agents (KI-Agenten) mit mehreren Tool-Schritten erhöhen häufig die End-to-End-Latenz, können aber komplexe Aufgaben zuverlässiger lösen.

Typische Stellhebel zur Optimierung (mit Beispielen)

  • Prompt & Kontext reduzieren: Kürzere Kontexte → weniger Rechenzeit, bessere Latenz und höherer TPS. Prompt Engineering hilft, präziser und kompakter zu fragen.
  • Modellwahl: Kleineres Modell oder quantisierte Variante → bessere Latenz/Throughput, ggf. Qualitätsverlust. Alternativ: Fine-Tuning oder LoRA für domänenspezifische Leistung ohne riesiges Basismodell.
  • Streaming & UX: Token-Streaming senkt gefühlte Latenz (TTFT), auch wenn die Gesamtdauer ähnlich bleibt.
  • Caching: Wiederkehrende Antworten/Embeddings cachen → drastische Latenzreduktion und höherer Durchsatz.
  • Parallelisierung: Tool-Calls oder Retrieval parallel ausführen, wenn möglich, statt sequenziell.

Was kostet „gute“ Latenz und hoher Throughput?

Es gibt keinen Fixpreis: Kosten hängen von Modell, Hosting (API vs. self-hosted), Kontextlänge, Parallelität und SLOs (z. B. P95 < 1,5 s) ab. Niedrige Latenz erfordert oft Überprovisionierung (mehr Reserven), während maximaler Throughput eher optimierte Auslastung (Batching, Queueing) braucht. In der Praxis definiert man Zielwerte (z. B. P95-Latenz, RPS) und dimensioniert Infrastruktur sowie Inference-Setup darauf.

Zahlen & Fakten

0,0x
mehr AbbrücheSteigt die Antwortzeit eines Systems von unter 2 Sekunden auf über 5 Sekunden, brechen B2B-Nutzer Self-Service- und Dashboard-Prozesse deutlich häufiger ab.
0%
weniger TicketsKMU mit stabiler Latenz und konstantem Durchsatz im Kundenportal senken Supportanfragen typischerweise, weil Seiten, Suchen und Automatisierungen verlässlicher reagieren.
0 von 4
kritisch für SkalierungRund drei von vier B2B-Digitalprojekten bewerten Latenz und Throughput als zentrale Betriebskennzahlen, da sie direkt Produktivität, SLA-Erfüllung und Infrastrukturkosten beeinflussen.

Anwendungsfälle in der Praxis

Hast du Latenz und Throughput in deinem System im Griff?

Beantworte 5 kurze Fragen und finde heraus, wo du stehst.
Misst du die Antwortzeiten deiner Modelle oder Systeme im laufenden Betrieb regelmäßig?
Hast du Zielwerte oder Grenzwerte für akzeptable Latenz und Throughput definiert?
Überwachst du Lastspitzen und erkennst, wann Antwortzeiten oder Durchsatz kritisch werden?
Hast du bereits Maßnahmen umgesetzt, um Latenz zu senken oder den Durchsatz zu erhöhen, zum Beispiel Caching, Batch-Verarbeitung oder Skalierung?
Optimierst du Latenz und Throughput kontinuierlich anhand von Monitoring-Daten, Tests oder realen Nutzungsmustern?

Ist deine KI-Lösung schnell genug – und liefert sie auch unter Last zuverlässig Ergebnisse?

Latenz und Throughput werden erst dann wirklich relevant, wenn dein Team oder deine Kunden das System täglich nutzen. Ich helfe dir, Engpässe zu erkennen, sinnvolle KI-Setups zu bewerten und Lösungen so aufzusetzen, dass Antwortzeit und Durchsatz zu deinem konkreten Anwendungsfall passen. So investierst du nicht in KI-Hype, sondern in ein System, das im Betrieb sauber funktioniert.

Häufig gestellte Fragen

Was ist der Unterschied zwischen Latency (Latenz) und Throughput?
Latenz beschreibt, wie lange eine einzelne Anfrage bis zur ersten oder vollständigen Antwort braucht. Throughput beschreibt, wie viele Anfragen, Daten oder Tokens ein System pro Zeiteinheit verarbeiten kann. Für KI-Systeme sind beide Werte wichtig, weil sie direkt Nutzererlebnis, Skalierbarkeit und Kosten beeinflussen.