LLM Funktionsweise: Token, Training, Inferenz – so funktioniert ChatGPT wirklich
600€ im Monat – und 4 Leute nutzen’s
Ich sitze gerade im Daily, da klingelt das Handy. Kunde dran, leicht genervt: „Wir zahlen knapp 600 Euro im Monat für ChatGPT-Lizenzen. 30 Plätze. Und am Ende nutzen’s… vier Leute. Was läuft da schief?“
Die unbequeme Wahrheit: Das Problem ist selten „ChatGPT ist schlecht“. Das Problem ist, dass im Team niemand wirklich versteht, wie ein LLM arbeitet – und was Nutzung überhaupt „kostet“. Dann wird ChatGPT entweder als Google-Ersatz missbraucht (und enttäuscht) oder als magischer Praktikant erwartet (und halluziniert). Ergebnis: Frust, Schatten-Accounts, und die bezahlten Seats verstauben.
Wenn du als GF, Teamlead oder Ops das in den Griff bekommen willst, brauchst du kein KI-Studium. Du brauchst ein mentales Modell, das in der Praxis trägt – in weniger Zeit, als ein Meeting dauert. In 6 Minuten verstehst du die Mechanik besser als 90% der Konkurrenz, und plötzlich werden Entscheidungen klarer: Wer braucht welchen Plan? Was ist „teuer“ – Seats oder Tokens? Was darfst du erwarten, was nicht?
- Token: Warum Abrechnung und Limits nicht nach „Nachrichten“, sondern nach Textstücken funktionieren (Faustregel: ein Token ≈ 4 Zeichen; „Hallo Welt“ sind 2 Tokens) – und wie du Prompts so baust, dass sie weniger kosten und mehr liefern.
- Training: Wie das Modell in Vortraining und Feinabstimmung „lernt“ – und warum dein Chat im Alltag kein echtes Weiterlernen auslöst.
- Inferenz: Was in Echtzeit passiert, wenn du auf „Senden“ klickst – und warum Geschwindigkeit, Qualität und Kontextfenster zusammenhängen.
- Halluzinationen: Warum das Modell plausibel klingende Antworten erzeugt, auch wenn Fakten fehlen – und welche Checks du im Team standardisieren solltest.
Vergleich
Vorher
- Du kaufst Lizenzen „für alle“ und wunderst dich, warum 30 Seats am Ende von 4 Personen genutzt werden – weil niemand weiß, wofür das Tool im Alltag wirklich taugt.
- Du erwartest „richtige Antworten“ wie bei Google oder einem Lexikon und interpretierst jede überzeugende Formulierung als Wahrheit – bis Halluzinationen zu Fehlentscheidungen führen.
- Du unterschätzt Tokens als Kosten- und Limit-Faktor: zu lange Prompts, unnötige Chat-Historien, Copy-Paste von PDFs – und plötzlich sind Limits erreicht oder die Rechnung explodiert.
- Du glaubst, das Modell „lernt“ dauerhaft aus euren Chats und wird automatisch besser für eure Firma – dadurch entstehen falsche Erwartungen an Personalisierung und Wissen.
- Du lässt dich von Feature-Versprechen steuern („Reasoning“, „Agenten“, „magische Branchen-KI“) und kaufst Tools, die eure Probleme nicht lösen – weil die Grundlagen fehlen.
Nachher
- Du planst Rollout und Nutzung wie ein Produkt: klare Use Cases pro Team, kurze Prompt-Standards, interne Beispiele – und kaufst erst dann die passende Anzahl Lizenzen.
- Du verstehst: Das Modell optimiert auf plausible Token-Folgen, nicht auf Wahrheit. Ergebnis: Du baust Checks ein (Quellenpflicht, Gegenfragen, Stichproben) und reduzierst Risiko.
- Du behandelst Tokens wie Budget: kurze, präzise Inputs, relevante Ausschnitte statt Volltexte, klare Struktur – weniger Verbrauch, stabilere Antworten, bessere Kalkulation.
- Du trennst Training und Inferenz sauber: Inferenz ist Echtzeit-Ausgabe ohne dauerhafte Wissensaufnahme. Für Firmenwissen nutzt du gezielte Anpassungen (z. B. Fine-Tuning/Prozess-Setups).
- Du bewertest Anbieter nach Mechanik statt Marketing: Was passiert bei Tokenisierung, wie wird angepasst, wie wird Inferenz abgesichert – und kaufst nur Features, die messbar Nutzen bringen.
Ein LLM, erklärt wie für einen 10-Jährigen
Stell dir ein Kind vor, das sprechen lernt. Es hört jeden Tag tausende Sätze: von Eltern, in der Schule, aus Büchern. Am Anfang plappert es nach, dann merkt es: Nach „Guten“ kommt oft „Morgen“. Nach „Ich hätte gern“ folgt häufig etwas Essbares. Es lernt nicht, weil jemand ihm ein Lexikon in den Kopf lädt, sondern weil es Muster wieder und wieder sieht.
Ein [LLM] funktioniert ähnlich – nur in riesig. Es bekommt extrem viele Texte und lernt daraus, welches Wort (oder Wortteil) wahrscheinlich als Nächstes kommt. Es „versteht“ Sprache nicht wie ein Mensch, sondern berechnet Wahrscheinlichkeiten: Welche Fortsetzung passt statistisch am besten zu dem, was du eingegeben hast?
Was ein LLM ist (und was nicht)
Was es IST: eine Maschine zur Wortvorhersage. Du gibst einen Satz ein, das Modell ergänzt ihn Schritt für Schritt. Beispiel: Du schreibst „Schreibe eine höfliche Absage an einen Bewerber“. Das LLM generiert eine plausible Mail, weil es ähnliche Formulierungen in vielen Varianten gesehen hat.
Was es NICHT ist: keine Datenbank, kein Google, kein denkendes Gehirn. Es „schlägt“ nicht automatisch Fakten nach und hat auch keinen eingebauten Wahrheits-Check. Wenn du nach einer sehr spezifischen Zahl, einem seltenen Gesetzesdetail oder einer internen Firmeninfo fragst, kann es trotzdem überzeugend antworten – weil es auf Plausibilität optimiert ist, nicht auf Beweisbarkeit.
Warum das deine Erwartungen sofort verbessert
- Nutze es für Formulierungen, Struktur, Ideen, Entwürfe und Erklärungen.
- Gib Kontext: Zielgruppe, Ton, Format, Beispiele. Ohne Kontext rät es mehr.
- Bei kritischen Fakten: explizit um Unsicherheiten, Annahmen oder Prüfschritte bitten.
Das Training, in dem es diese Muster lernt, nennt man [Pre-Training]: eine lange Lernphase, bevor du überhaupt eine Frage stellst.
Token: Die Währung der KI (und warum du dafür zahlst)
Token sind keine Wörter
Du zahlst für Input + Output
Kontext-Fenster: das Kurzzeitgedächtnis
So sparst du Tokens (und bekommst bessere Antworten)
Training: Wie die KI lernt (Pre-Training → Fine-Tuning → RLHF)
Schritt 1: Daten werden zu Token (die „Buchstaben“ der KI)
Phase 0
Schritt 1: Daten werden zu Token (die „Buchstaben“ der KI)
Bevor überhaupt gelernt wird, wird Text zerlegt: Wörter werden in kleinere Einheiten gesplittet, z. B. „Hundehalter“ → „Hunde“ + „halter“ (vereinfacht). Dieses Format kann das Modell effizient verarbeiten und Muster über viele Schreibweisen hinweg erkennen.
Praktisch: Je mehr **[Token]** dein Input hat, desto teurer und langsamer wird Training und spätere Nutzung. Deshalb sind saubere, wiederholungsarme Datensätze im Training genauso wichtig wie kurze, klare Prompts in der Praxis.
Schritt 2: Pre-Training – Next Token Prediction (Sprache „aufsaugen“)
Phase 1
Schritt 2: Pre-Training – Next Token Prediction (Sprache „aufsaugen“)
Im Pre-Training liest das Modell riesige Mengen Text und lernt ein Spiel: „Was ist das nächste Token?“ Beispiel: „Der Hund jagt den ___“ → Wahrscheinlichkeiten wie „Ball“ 35%, „Kater“ 20%, „Postboten“ 5% – abhängig davon, was es in ähnlichen Kontexten gesehen hat.
Ergebnis: Ein Basismodell kann flüssig schreiben, Zusammenhänge imitieren und Stil treffen. Aber: Es ist noch kein guter Assistent. Es weiß nicht automatisch, wann es nachfragen sollte, wie es strukturiert antwortet oder was „hilfreich“ für Menschen bedeutet.
Schritt 3: Fine-Tuning – vom Text-Vervollständiger zum Assistenten
Phase 2
Schritt 3: Fine-Tuning – vom Text-Vervollständiger zum Assistenten
Beim Fine-Tuning wird das Basismodell mit kleineren, gezielten Daten weitertrainiert, z. B. Frage-Antwort-Paare oder Anweisungen („Schreibe eine Checkliste“, „Erkläre in 5 Sätzen“). So lernt es: Auf eine Nutzerfrage folgt eine passende, formatierte Antwort – nicht nur die wahrscheinlichste Fortsetzung.
Mini-Beispiel: Basismodell auf „Schreib eine Kündigungs-E-Mail“ → könnte einen Roman starten. Fine-Tuning → liefert Betreff, Anrede, klare Sätze, Abschluss. Tipp: Wenn du intern fine-tunest, nutze echte Beispiele aus deinem Alltag (Support, Sales, SOPs) und halte das Ziel-Format konstant.
Schritt 4: RLHF – Menschen bewerten, das Modell lernt „besser“ zu antworten
Phase 3
Schritt 4: RLHF – Menschen bewerten, das Modell lernt „besser“ zu antworten
Bei RLHF (Reinforcement Learning from Human Feedback) bewerten Menschen mehrere Modellantworten: Welche ist hilfreicher, klarer, sicherer? Aus diesen Rankings entsteht ein „Belohnungsmodell“. Danach wird das Sprachmodell so optimiert, dass es Antworten erzeugt, die dieses Belohnungsmodell bevorzugt.
Alltagsbild: Fahrschule. Pre-Training= Verkehrsregeln lesen. Fine-Tuning = Fahrstunden mit konkreten Übungen. **[RLHF]** = Fahrlehrer sagt: „So ist es besser: defensiver, verständlicher, weniger riskant.“ Praktisch: RLHF erklärt, warum moderne Modelle oft höflich nachfragen, strukturieren und Grenzen setzen.
Schritt 5: Sicherheits- und Qualitätsabstimmung – Hilfreich vs. Harmlos
Phase 4
Schritt 5: Sicherheits- und Qualitätsabstimmung – Hilfreich vs. Harmlos
Nach (oder während) RLHF wird häufig separat an Sicherheit und Qualität gearbeitet: Antworten sollen nützlich sein, aber keine riskanten Anleitungen liefern oder falsche Gewissheit ausstrahlen. Moderne Ansätze trennen dabei teils „Hilfsbereitschaft“ und „Harmlosigkeit“, damit das Modell nicht nur blockt, sondern sinnvoll ausweicht (z. B. mit sicheren Alternativen).
- Praxis-Tipp: Wenn dein Team „zu vorsichtige“ Antworten sieht, liegt das oft an dieser Balance – nicht daran, dass das Modell „nichts kann“.
- Praxis-Tipp: Fordere Quellen, Unsicherheiten oder Rückfragen explizit an, wenn Präzision wichtiger ist als Tempo.
Inferenz: Was in Millisekunden passiert
Du tippst eine Frage ein – und ab da läuft ein klarer Ablauf. Erst wird dein Text in [Token] zerlegt (Wortteile, Satzzeichen, Zahlen). Dann wird nicht nur deine letzte Nachricht verarbeitet, sondern der komplette Gesprächsverlauf, der noch ins [Kontext-Fenster] passt. Dieser gesamte Kontext wird bei jeder Antwort erneut „mitgerechnet“.
Jetzt beginnt die eigentliche [Inferenz]: Das Modell berechnet für das nächste Token eine Wahrscheinlichkeitsverteilung („welches Token passt am besten als Nächstes?“). Anschließend wird ein Token ausgewählt (deterministisch oder mit Sampling/Temperatur) und an den Text angehängt. Dieser Zyklus wiederholt sich Token für Token, bis ein Stopp-Kriterium greift (z. B. maximale Länge, Stoppwort, Ende der Antwort).
Warum das Geld kostet (und warum es so stark schwankt)
Inferenz ist variabel teuer, weil drei Faktoren direkt durchschlagen: (1) Input-Länge (Kontext), (2) Output-Länge (Antwort), (3) Modellklasse (größere Modelle brauchen mehr Rechenarbeit pro Token). In vielen realen Deployments ist Inferenz außerdem der dominante Energietreiber – oft über 90% des Lebenszyklusverbrauchs – weil sie millionenfach pro Tag passiert.
Konkretes Kostenbeispiel: kurz vs. „10-seitige Analyse“
Angenommen, du nutzt eine [API] mit 0,03€/1.000 Input-Tokens und 0,06€/1.000 Output-Tokens:
- Kurze Anfrage: 200 Input-Tokens + 300 Output-Tokens → 0,006€ + 0,018€ = 0,024€
- Große Analyse: 6.000 Input-Tokens (viel Kontext, Dateien, Verlauf) + 2.500 Output-Tokens → 0,18€ + 0,15€ = 0,33€
Wichtig: ChatGPT-Abo wirkt „flatrate“, aber intern gelten dieselben Token- und Rechenlogiken. Die [API] rechnet dagegen exakt nach Verbrauch ab – und macht Kosten sichtbar.
Praktische Hebel, die sofort wirken
- Kontext kürzen: statt kompletten Verlauf lieber eine knappe Zusammenfassung mitsenden.
- Output begrenzen: „Antworte in 8 Bulletpoints“ oder „max. 120 Wörter“ reduziert Tokens.
- Batching nutzen: mehrere ähnliche Aufgaben gesammelt abarbeiten, statt einzeln anzustoßen.
- Modelle passend wählen: für Standardtexte ein kleineres Modell; das große nur für wirklich schwere Fälle.
Häufig gestellte Fragen
Was das für dein Business bedeutet: 4 Entscheidungen, die du heute besser triffst
Bessere Fragen stellen (und sofort bessere Antworten bekommen)
Ein LLM ist kein Gedankenleser: Je klarer Ziel, Format und Kontext, desto weniger „Ratespiel“ – und desto weniger Tokens für Nachfragen. Tausche „Mach mal ein Konzept“ gegen eine Aufgabe mit Rolle, Input und Output-Format.
- Schlecht: „Schreib mir eine Landingpage für unser Produkt.“
- Besser: „Du bist Performance-Copywriter. Zielgruppe: IT-Leiter in Mittelstand. Produkt: Backup-Software. Schreibe 1 Hero-Section + 3 Benefit-Blöcke, Ton: sachlich, max. 120 Wörter, mit 2 Varianten pro Headline. Nutze nur diese Fakten: …“
So steuerst du Inferenz-Kosten (kürzere Schleifen) und reduzierst Halluzinationen, weil du dem Modell weniger Interpretationsspielraum lässt.
KI für die richtigen Jobs einsetzen (und für die falschen absichern)
LLMs sind stark bei Sprache: Strukturieren, Umformulieren, Zusammenfassen, Varianten erzeugen, Checklisten bauen. Sie sind schwächer bei harten Fakten, tagesaktuellen Ereignissen und allem, was rechtlich/finanziell „sitzen“ muss.
- Gute Use Cases: Meeting-Notizen → To-dos, E-Mails in 3 Tonalitäten, SOPs aus Stichpunkten, Angebotsstruktur, FAQ-Entwürfe.
- Absichern: Bei Zahlen, Zitaten, Gesetzen immer „Belege/Quelle im Text“ verlangen oder mit Tools/RAG gegen interne Dokumente prüfen.
Das spart Zeit, ohne dass du Entscheidungen auf Vermutungen aufbaust.
Anbieter-Checkliste: So erkennst du, ob „KI“ wirklich passt
Viele Tools sind UI + API. Das ist okay – wenn du weißt, was darunter liegt und wie es skaliert. Prüfe vor dem Kauf die Basics, die später Kosten, Risiken und Qualität bestimmen.
- Welches Modell (groß vs. spezialisiert/klein) und welches Kontext-Fenster?
- Wie werden Daten genutzt: Training ja/nein, Speicherung, Admin-Kontrollen, lokale Nutzung möglich?
- Wie wird Halluzination reduziert: RAG, Quellenanzeige, Tool-Calls, Logging?
- Was kostet Skalierung: Tokenpreise, Limits, Preis pro Nutzer vs. pro Nutzung?
Red Flag: „proprietäres Wunder-Modell“, aber keine klare Aussage zu Datenstand, Kostenlogik und Qualitätssicherung.
Bullshit-Sätze entlarven (und bessere Entscheidungen treffen)
Wenn du Token, Training und Inferenz verstehst, hörst du Marketing-Sprech sofort. Du kaufst dann weniger Versprechen – und mehr belastbare Funktionen.
- „Lernt aus deinen Daten“ → Meint oft nur: nutzt sie im Prompt/Index (RAG), nicht echtes Training.
- „99% genau“ → Genau bei was? Klassifikation, Extraktion, Fakten? Ohne Messmethode ist es wertlos.
- „Ersetzt Mitarbeiter“ → Realistisch ist: ersetzt Teilaufgaben; Qualität braucht Review-Prozesse.
So baust du KI als Produktionssystem: mit klaren Inputs, Prüfregeln und einem Setup, das Kosten und Risiko im Griff hat.