LLM Funktionsweise: Token, Training, Inferenz – so funktioniert ChatGPT wirklich

Q: Was ist eine Halluzination bei ChatGPT?

Eine Halluzination ist eine Antwort, die plausibel klingt, aber objektiv falsch ist. Das Modell formuliert dabei oft sehr überzeugend, obwohl die Information nicht aus verlässlichem Wissen stammt. Wichtig: Das ist kein „Betrug“, sondern ein Nebenprodukt davon, wie LLMs Text erzeugen.

Q: Warum halluziniert ein LLM überhaupt?

Weil es nicht „nachschlägt“, sondern den nächsten Token basierend auf Wahrscheinlichkeiten vorhersagt. Wenn die Eingabe Lücken hat oder das Modell unsicher ist, füllt es diese Lücken trotzdem mit einer stimmigen Geschichte. Dazu kommen Effekte aus Trainingsdaten: veraltete, widersprüchliche oder falsch klassifizierte Inhalte erhöhen das Risiko.

Q: Kannst du ein typisches Halluzinations-Beispiel nennen?

Klassiker: Du fragst nach „Siemens-CEO 1987“ und bekommst einen sehr konkreten Namen plus angebliche Zitate – nur dass der Name erfunden ist. Das Modell optimiert auf eine „hilfreiche“ Antwort, nicht auf „ich weiß es sicher“. Je spezifischer die Frage, desto eher wirkt die erfundene Antwort glaubwürdig.

Q: Wann passieren Halluzinationen besonders häufig?

Bei sehr spezifischen Fakten ohne Kontext (Namen, Daten, Versionen), bei Zahlen/Statistiken und bei aktuellen Ereignissen rund um einen Stichtag. Auch mehrdeutige Prompts („Mach mal eine Marktanalyse“) erhöhen das Risiko, weil das Modell raten muss, was du genau meinst. Kurz: Unsicherheit + Erwartung nach Präzision = Halluzinations-Gefahr.

Q: Woran erkenne ich, dass eine Antwort wahrscheinlich halluziniert ist?

Red Flags sind übergenaue Zahlen ohne Beleg, vage „Studien zeigen…“-Formulierungen, fehlende überprüfbare Details (Autor, Jahr, Dokument) oder ein zu glattes Narrativ ohne Einschränkungen. Auch wenn die Antwort auf Nachfrage keine konsistenten Quellen oder Rechenschritte liefern kann, ist Vorsicht angesagt. Misstraue besonders „perfekten“ Listen mit vielen spezifischen Behauptungen.

Q: Wie kann ich Halluzinationen in der Praxis reduzieren?

Verlange Belege: „Nenne Quelle, Datum und wörtliches Zitat“ oder „zeige Rechenweg“. Gib saubere Inputs (Definitionen, Zeitraum, Datenbasis) und lass das Modell Unsicherheit markieren („wenn du es nicht sicher weißt, sag es“). Für Unternehmenswissen helfen Tools wie RAG/Anbindung an interne Dokumente – aber auch dann bleiben Plausibilitätschecks Pflicht.

Q: Darf ich KI-Antworten in Recht, Finanzen oder Compliance einfach übernehmen?

Nein: In kritischen Feldern sind Halluzinationen ein echtes Risiko, weil ein einzelner falscher Satz teuer werden kann. Nutze das Modell dort als Entwurf, Checkliste oder zum Strukturieren – aber nicht als letzte Instanz. Lass Inhalte immer von Fachleuten prüfen und arbeite mit freigegebenen Datenquellen.

Verstehe in Minuten, wie LLMs arbeiten: Token als Kostenfaktor, Training in 3 Phasen, Inferenz in Echtzeit – und warum Halluzinationen passieren.

9. Februar 20268 Minuten Lesezeit

600€ im Monat – und 4 Leute nutzen’s

Ich sitze gerade im Daily, da klingelt das Handy. Kunde dran, leicht genervt: „Wir zahlen knapp 600 Euro im Monat für ChatGPT-Lizenzen. 30 Plätze. Und am Ende nutzen’s… vier Leute. Was läuft da schief?“

Die unbequeme Wahrheit: Das Problem ist selten „ChatGPT ist schlecht“. Das Problem ist, dass im Team niemand wirklich versteht, wie ein LLM arbeitet – und was Nutzung überhaupt „kostet“. Dann wird ChatGPT entweder als Google-Ersatz missbraucht (und enttäuscht) oder als magischer Praktikant erwartet (und halluziniert). Ergebnis: Frust, Schatten-Accounts, und die bezahlten Seats verstauben.

Wenn du als GF, Teamlead oder Ops das in den Griff bekommen willst, brauchst du kein KI-Studium. Du brauchst ein mentales Modell, das in der Praxis trägt – in weniger Zeit, als ein Meeting dauert. In 6 Minuten verstehst du die Mechanik besser als 90% der Konkurrenz, und plötzlich werden Entscheidungen klarer: Wer braucht welchen Plan? Was ist „teuer“ – Seats oder Tokens? Was darfst du erwarten, was nicht?

Token: Warum Abrechnung und Limits nicht nach „Nachrichten“, sondern nach Textstücken funktionieren (Faustregel: ein Token ≈ 4 Zeichen; „Hallo Welt“ sind 2 Tokens) – und wie du Prompts so baust, dass sie weniger kosten und mehr liefern.
Training: Wie das Modell in Vortraining und Feinabstimmung „lernt“ – und warum dein Chat im Alltag kein echtes Weiterlernen auslöst.
Inferenz: Was in Echtzeit passiert, wenn du auf „Senden“ klickst – und warum Geschwindigkeit, Qualität und Kontextfenster zusammenhängen.
Halluzinationen: Warum das Modell plausibel klingende Antworten erzeugt, auch wenn Fakten fehlen – und welche Checks du im Team standardisieren solltest.

Vergleich

Vorher

Du kaufst Lizenzen „für alle“ und wunderst dich, warum 30 Seats am Ende von 4 Personen genutzt werden – weil niemand weiß, wofür das Tool im Alltag wirklich taugt.
Du erwartest „richtige Antworten“ wie bei Google oder einem Lexikon und interpretierst jede überzeugende Formulierung als Wahrheit – bis Halluzinationen zu Fehlentscheidungen führen.
Du unterschätzt Tokens als Kosten- und Limit-Faktor: zu lange Prompts, unnötige Chat-Historien, Copy-Paste von PDFs – und plötzlich sind Limits erreicht oder die Rechnung explodiert.
Du glaubst, das Modell „lernt“ dauerhaft aus euren Chats und wird automatisch besser für eure Firma – dadurch entstehen falsche Erwartungen an Personalisierung und Wissen.
Du lässt dich von Feature-Versprechen steuern („Reasoning“, „Agenten“, „magische Branchen-KI“) und kaufst Tools, die eure Probleme nicht lösen – weil die Grundlagen fehlen.

Nachher

Du planst Rollout und Nutzung wie ein Produkt: klare Use Cases pro Team, kurze Prompt-Standards, interne Beispiele – und kaufst erst dann die passende Anzahl Lizenzen.
Du verstehst: Das Modell optimiert auf plausible Token-Folgen, nicht auf Wahrheit. Ergebnis: Du baust Checks ein (Quellenpflicht, Gegenfragen, Stichproben) und reduzierst Risiko.
Du behandelst Tokens wie Budget: kurze, präzise Inputs, relevante Ausschnitte statt Volltexte, klare Struktur – weniger Verbrauch, stabilere Antworten, bessere Kalkulation.
Du trennst Training und Inferenz sauber: Inferenz ist Echtzeit-Ausgabe ohne dauerhafte Wissensaufnahme. Für Firmenwissen nutzt du gezielte Anpassungen (z. B. Fine-Tuning/Prozess-Setups).
Du bewertest Anbieter nach Mechanik statt Marketing: Was passiert bei Tokenisierung, wie wird angepasst, wie wird Inferenz abgesichert – und kaufst nur Features, die messbar Nutzen bringen.

Ein LLM, erklärt wie für einen 10-Jährigen

Stell dir ein Kind vor, das sprechen lernt. Es hört jeden Tag tausende Sätze: von Eltern, in der Schule, aus Büchern. Am Anfang plappert es nach, dann merkt es: Nach „Guten“ kommt oft „Morgen“. Nach „Ich hätte gern“ folgt häufig etwas Essbares. Es lernt nicht, weil jemand ihm ein Lexikon in den Kopf lädt, sondern weil es Muster wieder und wieder sieht.

Ein [LLM] funktioniert ähnlich – nur in riesig. Es bekommt extrem viele Texte und lernt daraus, welches Wort (oder Wortteil) wahrscheinlich als Nächstes kommt. Es „versteht“ Sprache nicht wie ein Mensch, sondern berechnet Wahrscheinlichkeiten: Welche Fortsetzung passt statistisch am besten zu dem, was du eingegeben hast?

Was ein LLM ist (und was nicht)

Was es IST: eine Maschine zur Wortvorhersage. Du gibst einen Satz ein, das Modell ergänzt ihn Schritt für Schritt. Beispiel: Du schreibst „Schreibe eine höfliche Absage an einen Bewerber“. Das LLM generiert eine plausible Mail, weil es ähnliche Formulierungen in vielen Varianten gesehen hat.

Was es NICHT ist: keine Datenbank, kein Google, kein denkendes Gehirn. Es „schlägt“ nicht automatisch Fakten nach und hat auch keinen eingebauten Wahrheits-Check. Wenn du nach einer sehr spezifischen Zahl, einem seltenen Gesetzesdetail oder einer internen Firmeninfo fragst, kann es trotzdem überzeugend antworten – weil es auf Plausibilität optimiert ist, nicht auf Beweisbarkeit.

Warum das deine Erwartungen sofort verbessert

Nutze es für Formulierungen, Struktur, Ideen, Entwürfe und Erklärungen.
Gib Kontext: Zielgruppe, Ton, Format, Beispiele. Ohne Kontext rät es mehr.
Bei kritischen Fakten: explizit um Unsicherheiten, Annahmen oder Prüfschritte bitten.

Das Training, in dem es diese Muster lernt, nennt man [Pre-Training]: eine lange Lernphase, bevor du überhaupt eine Frage stellst.

Token: Die Währung der KI (und warum du dafür zahlst)

Token sind keine Wörter

Das Modell denkt in Häppchen

Ein [Token] kann ein ganzes Wort, ein Wortteil oder sogar ein einzelnes Zeichen sein. Faustregel (Deutsch): 1 Token ≈ 4 Zeichen ≈ 0,75 Wörter. Beispiel: „Hallo Welt“ wird typischerweise in 2 Tokens zerlegt – und genau diese Einheiten zählt das Modell beim Lesen und Schreiben.

Du zahlst für Input + Output

Jede Frage hat zwei Zähler

Kosten entstehen doppelt: für Tokens, die du reinschickst (Input), und für Tokens, die das Modell ausgibt (Output). Beispielrechnung mit API-Preisen: 0,03 € / 1.000 Input-Tokens und 0,06 € / 1.000 Output-Tokens. Wenn ein Prompt 800 Tokens hat und die Antwort 400 Tokens, kostet das 0,024 € + 0,024 € = 0,048 € pro Anfrage – 1.000 solcher Anfragen sind ~48 €.

Kontext-Fenster: das Kurzzeitgedächtnis

Mehr Tokens = mehr „im Kopf“

Das [Kontext-Fenster] ist die maximale Token-Menge, die ein Modell in einer Anfrage gleichzeitig berücksichtigen kann (Prompt + Antwort). Je nach Variante sind z. B. 8k oder 128k Tokens möglich. Wenn du das Limit sprengst, wird nicht „schlechter erinnert“, sondern es fällt schlicht etwas aus dem Kontext heraus – dann wirken Antworten plötzlich unvollständig oder widersprüchlich.

So sparst du Tokens (und bekommst bessere Antworten)

Kürzer rein, klarer raus

Schneide Ballast: weniger Smalltalk, weniger doppelte Infos, stattdessen klare Ziele, Datenpunkte und gewünschtes Format. Nutze Zusammenfassungen („Fasse die letzten 20 Nachrichten in 8 Bulletpoints zusammen“) statt ganze Protokolle immer wieder einzufügen. Und: Gib nur die relevanten Ausschnitte (z. B. 30 Zeilen Code + Fehlermeldung) – nicht das komplette Projekt.

Training: Wie die KI lernt (Pre-Training → Fine-Tuning → RLHF)

Schritt 1: Daten werden zu Token (die „Buchstaben“ der KI)
Phase 0

Bevor überhaupt gelernt wird, wird Text zerlegt: Wörter werden in kleinere Einheiten gesplittet, z. B. „Hundehalter“ → „Hunde“ + „halter“ (vereinfacht). Dieses Format kann das Modell effizient verarbeiten und Muster über viele Schreibweisen hinweg erkennen.

Praktisch: Je mehr **[Token]** dein Input hat, desto teurer und langsamer wird Training und spätere Nutzung. Deshalb sind saubere, wiederholungsarme Datensätze im Training genauso wichtig wie kurze, klare Prompts in der Praxis.

Schritt 2: Pre-Training – Next Token Prediction (Sprache „aufsaugen“)
Phase 1

Im Pre-Training liest das Modell riesige Mengen Text und lernt ein Spiel: „Was ist das nächste Token?“ Beispiel: „Der Hund jagt den ___“ → Wahrscheinlichkeiten wie „Ball“ 35%, „Kater“ 20%, „Postboten“ 5% – abhängig davon, was es in ähnlichen Kontexten gesehen hat.

Ergebnis: Ein Basismodell kann flüssig schreiben, Zusammenhänge imitieren und Stil treffen. Aber: Es ist noch kein guter Assistent. Es weiß nicht automatisch, wann es nachfragen sollte, wie es strukturiert antwortet oder was „hilfreich“ für Menschen bedeutet.

Schritt 3: Fine-Tuning – vom Text-Vervollständiger zum Assistenten
Phase 2

Beim Fine-Tuning wird das Basismodell mit kleineren, gezielten Daten weitertrainiert, z. B. Frage-Antwort-Paare oder Anweisungen („Schreibe eine Checkliste“, „Erkläre in 5 Sätzen“). So lernt es: Auf eine Nutzerfrage folgt eine passende, formatierte Antwort – nicht nur die wahrscheinlichste Fortsetzung.

Mini-Beispiel: Basismodell auf „Schreib eine Kündigungs-E-Mail“ → könnte einen Roman starten. Fine-Tuning → liefert Betreff, Anrede, klare Sätze, Abschluss. Tipp: Wenn du intern fine-tunest, nutze echte Beispiele aus deinem Alltag (Support, Sales, SOPs) und halte das Ziel-Format konstant.

Schritt 4: RLHF – Menschen bewerten, das Modell lernt „besser“ zu antworten
Phase 3

Bei RLHF (Reinforcement Learning from Human Feedback) bewerten Menschen mehrere Modellantworten: Welche ist hilfreicher, klarer, sicherer? Aus diesen Rankings entsteht ein „Belohnungsmodell“. Danach wird das Sprachmodell so optimiert, dass es Antworten erzeugt, die dieses Belohnungsmodell bevorzugt.

Alltagsbild: Fahrschule. Pre-Training= Verkehrsregeln lesen. Fine-Tuning = Fahrstunden mit konkreten Übungen. **[RLHF]** = Fahrlehrer sagt: „So ist es besser: defensiver, verständlicher, weniger riskant.“ Praktisch: RLHF erklärt, warum moderne Modelle oft höflich nachfragen, strukturieren und Grenzen setzen.

Schritt 5: Sicherheits- und Qualitätsabstimmung – Hilfreich vs. Harmlos
Phase 4

Nach (oder während) RLHF wird häufig separat an Sicherheit und Qualität gearbeitet: Antworten sollen nützlich sein, aber keine riskanten Anleitungen liefern oder falsche Gewissheit ausstrahlen. Moderne Ansätze trennen dabei teils „Hilfsbereitschaft“ und „Harmlosigkeit“, damit das Modell nicht nur blockt, sondern sinnvoll ausweicht (z. B. mit sicheren Alternativen).

Praxis-Tipp: Wenn dein Team „zu vorsichtige“ Antworten sieht, liegt das oft an dieser Balance – nicht daran, dass das Modell „nichts kann“.
Praxis-Tipp: Fordere Quellen, Unsicherheiten oder Rückfragen explizit an, wenn Präzision wichtiger ist als Tempo.

Inferenz: Was in Millisekunden passiert

Du tippst eine Frage ein – und ab da läuft ein klarer Ablauf. Erst wird dein Text in [Token] zerlegt (Wortteile, Satzzeichen, Zahlen). Dann wird nicht nur deine letzte Nachricht verarbeitet, sondern der komplette Gesprächsverlauf, der noch ins [Kontext-Fenster] passt. Dieser gesamte Kontext wird bei jeder Antwort erneut „mitgerechnet“.

Jetzt beginnt die eigentliche [Inferenz]: Das Modell berechnet für das nächste Token eine Wahrscheinlichkeitsverteilung („welches Token passt am besten als Nächstes?“). Anschließend wird ein Token ausgewählt (deterministisch oder mit Sampling/Temperatur) und an den Text angehängt. Dieser Zyklus wiederholt sich Token für Token, bis ein Stopp-Kriterium greift (z. B. maximale Länge, Stoppwort, Ende der Antwort).

Warum das Geld kostet (und warum es so stark schwankt)

Inferenz ist variabel teuer, weil drei Faktoren direkt durchschlagen: (1) Input-Länge (Kontext), (2) Output-Länge (Antwort), (3) Modellklasse (größere Modelle brauchen mehr Rechenarbeit pro Token). In vielen realen Deployments ist Inferenz außerdem der dominante Energietreiber – oft über 90% des Lebenszyklusverbrauchs – weil sie millionenfach pro Tag passiert.

Konkretes Kostenbeispiel: kurz vs. „10-seitige Analyse“

Angenommen, du nutzt eine [API] mit 0,03€/1.000 Input-Tokens und 0,06€/1.000 Output-Tokens:

Kurze Anfrage: 200 Input-Tokens + 300 Output-Tokens → 0,006€ + 0,018€ = 0,024€
Große Analyse: 6.000 Input-Tokens (viel Kontext, Dateien, Verlauf) + 2.500 Output-Tokens → 0,18€ + 0,15€ = 0,33€

Wichtig: ChatGPT-Abo wirkt „flatrate“, aber intern gelten dieselben Token- und Rechenlogiken. Die [API] rechnet dagegen exakt nach Verbrauch ab – und macht Kosten sichtbar.

Praktische Hebel, die sofort wirken

Kontext kürzen: statt kompletten Verlauf lieber eine knappe Zusammenfassung mitsenden.
Output begrenzen: „Antworte in 8 Bulletpoints“ oder „max. 120 Wörter“ reduziert Tokens.
Batching nutzen: mehrere ähnliche Aufgaben gesammelt abarbeiten, statt einzeln anzustoßen.
Modelle passend wählen: für Standardtexte ein kleineres Modell; das große nur für wirklich schwere Fälle.

Häufig gestellte Fragen

Halluzinationen: Warum die KI lügt – und wie du’s merkst

Was ist eine Halluzination bei ChatGPT?

Warum halluziniert ein LLM überhaupt?

Kannst du ein typisches Halluzinations-Beispiel nennen?

Wann passieren Halluzinationen besonders häufig?

Woran erkenne ich, dass eine Antwort wahrscheinlich halluziniert ist?

Wie kann ich Halluzinationen in der Praxis reduzieren?

Darf ich KI-Antworten in Recht, Finanzen oder Compliance einfach übernehmen?

Was das für dein Business bedeutet: 4 Entscheidungen, die du heute besser triffst

Weniger Token verbrennen, bessere Ergebnisse bekommen, Anbieter sauber bewerten – ohne KI-Mythen.

Bessere Fragen stellen (und sofort bessere Antworten bekommen)

Ein LLM ist kein Gedankenleser: Je klarer Ziel, Format und Kontext, desto weniger „Ratespiel“ – und desto weniger Tokens für Nachfragen. Tausche „Mach mal ein Konzept“ gegen eine Aufgabe mit Rolle, Input und Output-Format.

Schlecht: „Schreib mir eine Landingpage für unser Produkt.“
Besser: „Du bist Performance-Copywriter. Zielgruppe: IT-Leiter in Mittelstand. Produkt: Backup-Software. Schreibe 1 Hero-Section + 3 Benefit-Blöcke, Ton: sachlich, max. 120 Wörter, mit 2 Varianten pro Headline. Nutze nur diese Fakten: …“

So steuerst du Inferenz-Kosten (kürzere Schleifen) und reduzierst Halluzinationen, weil du dem Modell weniger Interpretationsspielraum lässt.

KI für die richtigen Jobs einsetzen (und für die falschen absichern)

LLMs sind stark bei Sprache: Strukturieren, Umformulieren, Zusammenfassen, Varianten erzeugen, Checklisten bauen. Sie sind schwächer bei harten Fakten, tagesaktuellen Ereignissen und allem, was rechtlich/finanziell „sitzen“ muss.

Gute Use Cases: Meeting-Notizen → To-dos, E-Mails in 3 Tonalitäten, SOPs aus Stichpunkten, Angebotsstruktur, FAQ-Entwürfe.
Absichern: Bei Zahlen, Zitaten, Gesetzen immer „Belege/Quelle im Text“ verlangen oder mit Tools/RAG gegen interne Dokumente prüfen.

Das spart Zeit, ohne dass du Entscheidungen auf Vermutungen aufbaust.

Anbieter-Checkliste: So erkennst du, ob „KI“ wirklich passt

Viele Tools sind UI + API. Das ist okay – wenn du weißt, was darunter liegt und wie es skaliert. Prüfe vor dem Kauf die Basics, die später Kosten, Risiken und Qualität bestimmen.

Welches Modell (groß vs. spezialisiert/klein) und welches Kontext-Fenster?
Wie werden Daten genutzt: Training ja/nein, Speicherung, Admin-Kontrollen, lokale Nutzung möglich?
Wie wird Halluzination reduziert: RAG, Quellenanzeige, Tool-Calls, Logging?
Was kostet Skalierung: Tokenpreise, Limits, Preis pro Nutzer vs. pro Nutzung?

Red Flag: „proprietäres Wunder-Modell“, aber keine klare Aussage zu Datenstand, Kostenlogik und Qualitätssicherung.

Bullshit-Sätze entlarven (und bessere Entscheidungen treffen)

Wenn du Token, Training und Inferenz verstehst, hörst du Marketing-Sprech sofort. Du kaufst dann weniger Versprechen – und mehr belastbare Funktionen.

„Lernt aus deinen Daten“ → Meint oft nur: nutzt sie im Prompt/Index (RAG), nicht echtes Training.
„99% genau“ → Genau bei was? Klassifikation, Extraktion, Fakten? Ohne Messmethode ist es wertlos.
„Ersetzt Mitarbeiter“ → Realistisch ist: ersetzt Teilaufgaben; Qualität braucht Review-Prozesse.

So baust du KI als Produktionssystem: mit klaren Inputs, Prüfregeln und einem Setup, das Kosten und Risiko im Griff hat.

Hol dir in 30 Minuten Klarheit: Was kostet’s, was kann’s, was bringt’s?

Kostenloser Klarheits-Call ohne Pitch: Wir schauen auf deinen Use Case, rechnen Token- und Kontext-Kosten grob durch und klären, welche Fragen du Anbietern stellen musst, damit du keine Features kaufst, die du nicht nutzt.

100% kostenlos & unverbindlich

← Zurück zum Blog