IAllgemein

Inference (Inference)

Wenn ein KI-Modell im Betrieb Antworten berechnet (nicht Training).

Inference (deutsch: Inferenz) ist die Phase, in der ein KI-Modell im laufenden Betrieb aus einer Eingabe (z. B. einer Frage) eine Ausgabe berechnet – also „Antworten produziert“. Im Gegensatz zum Training werden dabei keine neuen Fähigkeiten gelernt, sondern das bereits gelernte Wissen wird genutzt, um in Echtzeit Texte, Bilder oder Entscheidungen zu erzeugen.

Was bedeutet Inference im Cloud- & SaaS-Kontext?

Für KMU ist Inference vor allem dann relevant, wenn KI-Funktionen als Cloud-Service genutzt werden – etwa über ChatGPT oder eine API wie die OpenAI API. Jedes Mal, wenn Mitarbeitende eine Frage stellen, ein Dokument zusammenfassen lassen oder eine E-Mail formulieren, läuft im Hintergrund Inference. In SaaS-Produkten ist das die „Produktionsphase“ der KI: Hier entstehen die Ergebnisse, die im Alltag Zeit sparen oder Prozesse verbessern.

Wie funktioniert Inference (vereinfacht)?

Warum ist Inference wichtig für Geschäftsführer?

Inference ist der Teil von KI, der direkt Kosten, Geschwindigkeit und Risiko im Tagesgeschäft bestimmt:

Typische Beispiele aus der Praxis

Was kostet Inference typischerweise?

Es gibt keinen Einheitspreis: Kosten hängen von Modellgröße, Tokenmenge, Antwortlänge, gewünschter Geschwindigkeit und Betriebsform ab (Cloud-API, eigener Inference-Server (vLLM / TGI / Triton), oder Serverless Inference (Serverlose Inferenz)). Für KMU ist die wichtigste Faustregel: Jede zusätzliche Kontextseite und jede längere Antwort erhöht die Inference-Kosten – daher lohnt sich sauberes Prompt Engineering und Token-Disziplin.

Merksatz: Training macht ein Modell „schlauer“ – Inference macht es „nützlich“ im Alltag.