Model Serving
Model Serving bezeichnet die Bereitstellung eines trainierten KI-Modells als zuverlässige, skalierbare API im laufenden Betrieb. Statt Modelle nur „im Notebook“ zu testen, werden sie so veröffentlicht, dass Anwendungen (z. B. CRM, Helpdesk oder Automatisierungs-Workflows) jederzeit Vorhersagen bzw. Antworten anfordern können – mit kontrollierter Latenz, Kosten, Sicherheit und Qualität.
Was bedeutet Model Serving im Unternehmensalltag?
Für wachsende KMU ist Model Serving der Schritt von „KI als Experiment“ zu „KI als Produktiv-Komponente“. Typische Beispiele sind: automatische Ticket-Klassifizierung, Zusammenfassung von Kundengesprächen, Extraktion von Daten aus Dokumenten oder ein interner Assistent, der über RAG (Retrieval-Augmented Generation) auf Unternehmenswissen zugreift. Das Modell läuft dabei nicht direkt in jedem Tool, sondern wird zentral als Service betrieben und von verschiedenen Prozessen wiederverwendet.
Wie funktioniert Model Serving?
- Modell auswählen & paketieren: z. B. ein Large Language Model (LLM) oder ein Klassifikationsmodell; ggf. optimiert durch Quantization (Quantisierung) oder Distillation (Wissensdistillation).
- Inference-Endpunkt bereitstellen: Das Modell wird über einen Endpoint (HTTP/gRPC) erreichbar gemacht; die eigentliche Ausführung heißt Inference.
- Skalierung & Performance steuern: Autoscaling, Parallelisierung, Caching (z. B. KV-Cache (Key-Value Cache), Prompt Caching (Antwort-/Prompt-Cache)) sowie Zielwerte für Latency (Latenz) & Throughput.
- Sicherheit & Governance einbauen: Authentifizierung, Rate-Limits (siehe API Rate Limits (Ratenbegrenzung)) und Schutz vor Prompt-Angriffen (z. B. Prompt Injection). Für regulierte Umfelder gehören AI Governance und Datenschutzanforderungen (siehe Datenschutz (DSGVO/GDPR) & KI) dazu.
- Monitoring & Qualität: Logging, Metriken und Drift-Erkennung (z. B. Model Drift (Modell-Drift)) sowie laufende Tests via Evaluation (Eval) & Benchmarking und Observability (siehe Model Monitoring & Observability (LLMOps)).
Warum ist Model Serving wichtig für Automatisierung & Prozesse?
Ohne Model Serving entstehen „KI-Inseln“: jede Abteilung nutzt ein anderes Tool, Prompts sind nicht versioniert, Kosten laufen aus dem Ruder und Ergebnisse sind schwer reproduzierbar. Mit zentralem Serving können Workflows (z. B. in n8n oder über eine Automatisierung (Automation)) stabil auf KI zugreifen, SLAs definieren und Änderungen kontrolliert ausrollen (z. B. A/B-Tests für Prompts, Fallback-Modelle, Rollbacks).
Was kostet Model Serving?
Die Kosten hängen stark davon ab, ob Sie ein Modell selbst hosten (GPU/Cloud, Betrieb, Wartung) oder einen Managed API-Anbieter nutzen. Treiber sind u. a. Token-Volumen, gewünschte Latenz, Parallelität, Datenresidenz sowie Sicherheits- und Monitoring-Aufwand. In der Praxis lohnt sich eine Betrachtung über Total Cost of Ownership (TCO) für LLMs und kontinuierliche Cost Optimization (Token-Kostenoptimierung).
Praxisbeispiel (KMU)
Ein wachsendes Service-Team möchte E-Mails automatisch klassifizieren und Antworten vorschlagen. Mit Model Serving wird ein zentraler Endpunkt bereitgestellt, der (1) E-Mail-Inhalte annimmt, (2) über Embeddings relevante Wissensartikel findet (RAG), (3) eine Antwort generiert und (4) strukturierte Felder zurückgibt (z. B. Kategorie, Dringlichkeit). So können mehrere Tools denselben KI-Service nutzen, ohne dass jede Abteilung eigene, schwer wartbare Prompt-Setups baut.