Inference (Inferenz)
Inference (Inferenz) ist die Ausführung eines trainierten KI-Modells, um aus neuen Eingaben (z. B. Text, Bild, Audio) eine Ausgabe zu erzeugen. Im Unterschied zum Training werden dabei keine Modellgewichte mehr gelernt, sondern das Modell „rechnet“ nur noch eine Vorhersage bzw. Generierung – etwa eine Antwort in ChatGPT oder eine Klassifikation in einem Computer-Vision-System.
Was bedeutet Inference (Inferenz)?
Der Begriff „Inference“ bezeichnet in der Praxis die Produktionsphase eines Modells: Ein Nutzer-Input (Prompt, Bild, Sensordaten) wird durch das Modell verarbeitet und als Output zurückgegeben. Bei Large Language Model (LLM)s ist das meist die tokenweise Textgenerierung; bei Bildmodellen z. B. eine Erkennung („Hund“), Segmentierung oder Generierung (z. B. Stable-Diffusion-Outputs).
Wie funktioniert Inference?
- 1) Input vorbereiten: Text wird in Token (Tokens) & Tokenisierung (Tokenization) zerlegt; Bilder/Audio werden in passende Tensor-Formate umgewandelt.
- 2) Kontext zusammenstellen: Prompt + Systemanweisung (z. B. System Prompt (Systemanweisung)) + ggf. Zusatzwissen (z. B. via RAG (Retrieval-Augmented Generation)) werden ins Kontextfenster (Context Window) gelegt.
- 3) Vorwärtsdurchlauf (Forward Pass): Das Modell berechnet Wahrscheinlichkeiten bzw. Scores für mögliche Ausgaben. Bei Transformer-Modellen greifen dabei Mechanismen wie Attention-Mechanismus (Self-Attention).
- 4) Decoding / Sampling: Aus den Wahrscheinlichkeiten werden konkrete Tokens gewählt – gesteuert durch Parameter wie Temperature & Sampling (Temperatur & Sampling) oder Top-k / Top-p (Nucleus Sampling).
- 5) Ausgabe liefern: Ergebnis kommt als kompletter Text oder als Stream (siehe Streaming Responses (Token-Streaming)). Optional werden Tools aufgerufen (siehe Function Calling / Tool Use).
Beispiele aus der Praxis
- Chatbot im Support: Ein Large Language Model (LLM) beantwortet Kundenfragen. Mit RAG (Retrieval-Augmented Generation) werden passende FAQ-Artikel nachgeladen, damit die Inferenz „gegroundet“ ist.
- Automatisierung mit n8n: In einem Workflow mit n8n triggert ein Webhook eine LLM-Inferenz: E-Mail zusammenfassen, Antwortentwurf generieren, danach Ticket im CRM anlegen (Tool Use).
- Dokumentenverarbeitung: OCR extrahiert Text, danach nutzt ein Modell Inference für strukturierte Felder (Rechnungsnummer, Betrag) – oft kombiniert mit Structured Outputs (JSON Schema).
Warum ist Inference wichtig?
Inference ist der Teil, den Nutzer „spüren“: Qualität, Geschwindigkeit und Kosten entstehen primär hier. Für produktive Systeme zählen vor allem Latenz, Throughput und Stabilität (siehe Latency (Latenz) & Throughput). Außerdem beeinflusst Inference das Risiko von Halluzinationen (Hallucinations), z. B. wenn Kontext fehlt oder Sampling zu kreativ eingestellt ist.
Was kostet Inference – und wovon hängt es ab?
Die Kosten der Inferenz hängen typischerweise von (1) Anzahl Tokens (Input + Output), (2) Modellgröße/Provider, (3) Latenzanforderungen (Realtime vs. Batch), (4) Infrastruktur (GPU/CPU, Self-Hosting) und (5) Optimierungen wie Cache ab. Maßnahmen wie Prompt Caching (Antwort-/Prompt-Cache), Batch Inference (Stapel-Inferenz), Quantisierung oder ein effizienter Inference-Server (vLLM / TGI / Triton) können Kosten und Antwortzeiten deutlich senken.
Inference vs. Training (Kurzabgrenzung)
Training passt Modellgewichte an (teuer, lange Laufzeiten). Inference nutzt die gelernten Gewichte, um Vorhersagen zu erzeugen (laufende Betriebskosten). Anpassungen wie Fine-Tuning oder LoRA verändern das Modell vor der Inferenz – die eigentliche Ausgabe entsteht aber immer während der Inferenz.