CAllgemein

Circuit Breaker für LLM APIs

Stoppt/limitiert Aufrufe bei Fehlern, schützt Systeme und Kosten

Ein Circuit Breaker für LLM APIs ist ein Schutzmechanismus, der API-Aufrufe zu einem Large-Language-Model temporär stoppt oder stark limitiert, wenn sich Fehler häufen. Dadurch verhindert er Kaskadenfehler in nachgelagerten Systemen, hält Latenzspitzen in Schach und schützt vor unnötigen Token-Kosten, wenn ein Modell oder ein Provider gerade instabil ist (z. B. Timeouts, 5xx-Fehler, Rate-Limits).

Gerade bei LLM-Integrationen (z. B. ChatGPT/OpenAI API oder andere Provider) treten typische Störungen auf: kurzzeitige Ausfälle, „429 Too Many Requests“ durch API Rate Limits (Ratenbegrenzung), Netzwerkprobleme, oder unerwartet langsame Antworten. Ohne Circuit Breaker versuchen Workflows oft automatisch erneut zu senden (Retries) – und verstärken damit das Problem: mehr Last, noch mehr Fehler, steigende Wartezeiten und im schlimmsten Fall explodierende Kosten. Ein Circuit Breaker setzt hier eine klare Grenze.

Wie funktioniert ein Circuit Breaker (typischer Ablauf)?

  • Closed (normal): Requests gehen durch. Fehler werden gezählt (z. B. Timeout, 5xx, 429, hohe Latenz).
  • Open (unterbrochen): Ab einem Schwellwert (z. B. 5 Fehler in 30 Sekunden oder Fehlerquote > 50%) werden weitere Aufrufe sofort abgelehnt oder auf einen Fallback umgeleitet. Das schützt das Gesamtsystem und spart Tokens.
  • Half-Open (Testphase): Nach einer „Cooldown“-Zeit lässt der Circuit Breaker wenige Probe-Requests durch. Wenn sie erfolgreich sind, geht er zurück auf „Closed“. Wenn nicht, bleibt er „Open“.

Warum ist das bei LLM APIs besonders wichtig?

  • Kostenkontrolle: LLM-Aufrufe sind variabel teuer. Ein Fehler mit aggressiven Retries kann dennoch Tokens verbrennen (z. B. bei teilweisen Antworten/Streaming oder mehrfachen Tool-Aufrufen).
  • Stabilität in Automationen: In Automatisierung (Automation)-Setups (z. B. n8n) kann ein fehlernder LLM-Schritt ganze Workflows blockieren oder Warteschlangen füllen.
  • Schutz vor Kettenreaktionen: Wenn ein AI Agents (KI-Agenten)-Workflow mehrere Tools nutzt (z. B. Function Calling / Tool Use), kann ein einzelner instabiler LLM-Endpunkt mehrere Systeme gleichzeitig belasten.

Praxisbeispiele (LLM-typische Patterns)

  • Fallback-Route: Wenn Provider A ausfällt, schaltet der Circuit Breaker auf Provider B um (z. B. über Model Router (Modell-Routing)), oder auf ein kleineres Modell für „Degraded Mode“.
  • Graceful Degradation: Statt einer langen Antwort liefert das System eine kurze, sichere Standardantwort („Wir sind gerade ausgelastet…“) und legt die Anfrage in eine Queue.
  • Retry-Strategie mit Grenzen: Retries nur bei transienten Fehlern (Timeout/5xx), mit Exponential Backoff – aber nur solange der Circuit Breaker nicht „Open“ ist.

In modernen LLM-Stacks wird der Circuit Breaker oft zusammen mit Model Monitoring & Observability (LLMOps) und einem zentralen Gateway (z. B. API Gateway für KI) eingesetzt. So lassen sich Schwellenwerte pro Modell, Endpoint oder Workflow definieren – und du bekommst robuste, kosteneffiziente LLM-Integrationen, die auch unter Last oder bei Provider-Problemen zuverlässig bleiben.