Inference (Inference)
Inference (deutsch: Inferenz) ist die Phase, in der ein KI-Modell im laufenden Betrieb aus einer Eingabe (z. B. einer Frage) eine Ausgabe berechnet – also „Antworten produziert“. Im Gegensatz zum Training werden dabei keine neuen Fähigkeiten gelernt, sondern das bereits gelernte Wissen wird genutzt, um in Echtzeit Texte, Bilder oder Entscheidungen zu erzeugen.
Was bedeutet Inference im Cloud- & SaaS-Kontext?
Für KMU ist Inference vor allem dann relevant, wenn KI-Funktionen als Cloud-Service genutzt werden – etwa über ChatGPT oder eine API wie die OpenAI API. Jedes Mal, wenn Mitarbeitende eine Frage stellen, ein Dokument zusammenfassen lassen oder eine E-Mail formulieren, läuft im Hintergrund Inference. In SaaS-Produkten ist das die „Produktionsphase“ der KI: Hier entstehen die Ergebnisse, die im Alltag Zeit sparen oder Prozesse verbessern.
Wie funktioniert Inference (vereinfacht)?
- 1) Eingabe (Prompt): Ein Nutzer gibt Text, Daten oder ein Bild ein. Bei Large Language Model (LLM)-Anwendungen sind das meist Tokens (siehe Token (Tokens) & Tokenisierung (Tokenization)).
- 2) Kontext bereitstellen: Optional werden zusätzliche Informationen angehängt – z. B. Unternehmenswissen über RAG (Retrieval-Augmented Generation) aus einer Vektordatenbank (Vector Database).
- 3) Berechnung im Modell: Das Modell berechnet schrittweise die wahrscheinlichste nächste Ausgabe (z. B. das nächste Wort/Token). Parameter wie Temperature & Sampling (Temperatur & Sampling) beeinflussen, ob die Antwort eher kreativ oder eher konservativ ist.
- 4) Ausgabe & Prüfung: Die Antwort wird ausgegeben, ggf. mit Leitplanken über Guardrails (KI-Leitplanken) oder Formatvorgaben wie Structured Outputs (JSON Schema).
Warum ist Inference wichtig für Geschäftsführer?
Inference ist der Teil von KI, der direkt Kosten, Geschwindigkeit und Risiko im Tagesgeschäft bestimmt:
- Kosten: Viele Anbieter rechnen pro Token oder Anfrage ab. Lange Prompts, große Modelle oder viele Nutzer erhöhen die Kosten (siehe Token Accounting (Token-Abrechnung) und Cost Optimization (Token-Kostenoptimierung)).
- Geschwindigkeit (Latenz): Je schneller die Inference, desto besser die Nutzerakzeptanz – besonders im Support oder Vertrieb (siehe Latency (Latenz) & Throughput).
- Qualität & Verlässlichkeit: Inference kann zu Fehlern oder Halluzinationen (Hallucinations) führen, wenn Kontext fehlt oder falsche Annahmen getroffen werden. Maßnahmen wie Grounding (Faktenverankerung) und RAG reduzieren das Risiko.
- Datenschutz & Compliance: Bei Inference werden Eingaben oft an einen Cloud-Provider gesendet. Das ist relevant für Datenschutz (DSGVO/GDPR) & KI, Datenaufbewahrung und ggf. [[Data Residency (Datenresidenz)].]
Typische Beispiele aus der Praxis
- Kundenservice: Ein Chatbot beantwortet Fragen zu Produkten – jede Antwort ist Inference.
- Vertrieb: KI erstellt personalisierte Angebots-E-Mails aus Stichpunkten.
- Backoffice: KI extrahiert Felder aus Rechnungen (z. B. via Document AI (Intelligent Document Processing, IDP)) und übergibt sie an Workflows (z. B. Automatisierung (Automation) mit n8n).
Was kostet Inference typischerweise?
Es gibt keinen Einheitspreis: Kosten hängen von Modellgröße, Tokenmenge, Antwortlänge, gewünschter Geschwindigkeit und Betriebsform ab (Cloud-API, eigener Inference-Server (vLLM / TGI / Triton), oder Serverless Inference (Serverlose Inferenz)). Für KMU ist die wichtigste Faustregel: Jede zusätzliche Kontextseite und jede längere Antwort erhöht die Inference-Kosten – daher lohnt sich sauberes Prompt Engineering und Token-Disziplin.
Merksatz: Training macht ein Modell „schlauer“ – Inference macht es „nützlich“ im Alltag.