Inference
Inference (auch „Inferenz“) bezeichnet in der Künstlichen Intelligenz die Ausführung eines bereits trainierten Modells, um aus neuen Eingaben Vorhersagen, Klassifikationen oder generierte Inhalte zu erzeugen. Anders als beim Training werden dabei keine Modellgewichte mehr gelernt, sondern das Modell wendet sein erlerntes Wissen auf aktuelle Daten an – z. B. für Chat-Antworten, Bilderkennung oder Automations-Entscheidungen.
Was bedeutet Inference?
„Inference“ bedeutet wörtlich „Schlussfolgern“. In KI-Systemen beschreibt es den Schritt, in dem ein Modell aus Input (z. B. Text, Bild, Sensordaten, Tabellenwerte) ein Output-Ergebnis ableitet. Bei einem Large Language Model (LLM) ist das z. B. das nächste Token (Wort-/Zeichenbaustein), das auf Basis des Kontexts am wahrscheinlichsten ist. Bei einem Klassifikationsmodell kann es eine Kategorie wie „Spam“/„Kein Spam“ sein.
Wie funktioniert Inference?
- 1) Input vorbereiten: Daten werden in das Format gebracht, das das Modell erwartet (z. B. Tokenisierung bei LLMs, Normalisierung bei Zahlenwerten, Skalierung bei Bildern).
- 2) Modell ausführen: Das Modell berechnet über seine Netzwerk-Schichten eine Ausgabe. Bei LLMs passiert das autoregressiv: Token für Token wird erzeugt.
- 3) Decoding/Entscheidungslogik: Je nach Aufgabe wird ein Ergebnis ausgewählt (z. B. „greedy“, „beam search“, Sampling/Temperature bei Text) oder eine Klasse mit Wahrscheinlichkeit ausgegeben.
- 4) Postprocessing: Ergebnisse werden formatiert, gefiltert oder validiert (z. B. JSON-Format, Sicherheitsfilter, Business-Regeln, Quellenangaben).
- 5) Auslieferung: Ausgabe geht an UI, API, Workflow-Tool (z. B. n8n) oder nachgelagerte Systeme (CRM, Ticketsystem, Datenbank).
Beispiele aus der Praxis (LLM, ChatGPT, Automation)
- Chatbot/ChatGPT-ähnliche Systeme: Nutzer fragt „Schreibe eine E-Mail“. Die Inference generiert den Text, indem das Modell basierend auf Prompt und Kontext fortlaufend Tokens berechnet.
- Dokumenten-Automation: Ein LLM extrahiert Rechnungsdaten (Betrag, IBAN, Fälligkeitsdatum). Die Inference liefert strukturierte Felder, die dann in n8n weiterverarbeitet werden.
- Support-Triage: Ein Modell klassifiziert Tickets nach Dringlichkeit oder Thema. Inference entscheidet „Priorität hoch“ und löst eine Automationskette aus.
- Agentische Workflows: In Kombination mit Tools kann Inference Handlungsschritte planen (z. B. „Suche Info“, „Erstelle Antwort“, „Update CRM“) – häufig umgesetzt mit AI Agents (KI-Agenten).
Warum ist Inference wichtig?
Inference ist der Moment, in dem KI echten Nutzen liefert: Sie macht aus einem trainierten Modell ein produktives System. In der Praxis entscheidet die Inference-Qualität (z. B. Prompting, Decoding-Strategie, Kontextfenster, Guardrails) über Genauigkeit, Halluzinationsrisiko, Latenz und Kosten. Besonders in Automations-Setups ist eine robuste Inference entscheidend, damit Workflows zuverlässig laufen und Ergebnisse konsistent in nachgelagerte Systeme geschrieben werden.
Was kostet Inference?
Die Kosten hängen stark vom Modelltyp und dem Betrieb ab. Typische Kostentreiber sind Token-/Rechenmenge (bei LLMs: Input- und Output-Tokens), Latenz-Anforderungen (Echtzeit vs. Batch), Hardware (GPU/CPU), Skalierung (Anfragen pro Minute) und Qualitätsmaßnahmen (z. B. Retrieval, Validierung, Moderation). In der Cloud wird Inference häufig nutzungsbasiert abgerechnet; On-Premise entstehen eher Fixkosten für Infrastruktur und Betrieb.
Inference vs. Training (kurz abgegrenzt)
- Training: Modell lernt Parameter aus Daten (teuer, lang, selten).
- Inference: Modell nutzt gelernte Parameter für neue Inputs (schneller, häufig, produktiv).
Damit ist Inference der zentrale Schritt, um KI-Modelle in Anwendungen, Chatbots und Automations-Workflows zuverlässig einzusetzen.