TAllgemein

Token (Tokens) & Tokenisierung (Tokenization)

Zerlegung von Text in Einheiten; Basis für Kosten, Kontext und Limits.
6 Aufrufe

Token (Plural: Tokens) sind die Textbausteine, in die ein KI-System Eingaben und Ausgaben zerlegt – z. B. Wörter, Wortteile oder Satzzeichen. Diese Tokenisierung (Tokenization) ist die Grundlage dafür, wie Large Language Model (LLM)s Text „lesen“, wie viel Kontext sie behalten können (Kontextfenster) und wie sich Nutzungskosten sowie Limits (Input/Output) berechnen.

Was bedeutet „Token“ in KI und LLMs?

Ein Token ist eine Einheit, die ein Sprachmodell intern verarbeitet. Anders als „Wörter“ sind Tokens oft Subwords (Wortteile). Beispiel: „Automatisierung“ kann je nach Tokenizer in mehrere Teile zerfallen. Auch Leerzeichen, Emojis, Sonderzeichen oder Code-Fragmente können eigene Tokens sein. Dadurch kann ein Modell flexibel mit unbekannten Wörtern, Fachbegriffen oder zusammengesetzten deutschen Wörtern umgehen.

Wie funktioniert Tokenisierung (Tokenization)?

  • 1) Vorverarbeitung: Text wird normalisiert (z. B. Umgang mit Leerzeichen, Sonderzeichen, Unicode).
  • 2) Zerlegung in Token-Kandidaten: Ein Tokenizer (häufig BPE/Byte-Pair-Encoding oder ähnliche Subword-Verfahren) teilt den Text in häufig vorkommende Teile.
  • 3) Mapping auf Token-IDs: Jedes Token wird in eine Zahl (ID) übersetzt, die das Modell verarbeitet.
  • 4) Modellverarbeitung: Das Modell berechnet aus Token-IDs Wahrscheinlichkeiten für die nächsten Tokens und erzeugt so die Antwort.

Wichtig: Unterschiedliche Modelle nutzen unterschiedliche Tokenizer. Derselbe Satz kann daher je nach Modell unterschiedlich viele Tokens ergeben – relevant für Kosten und Limits bei ChatGPT oder API-Nutzung.

Warum sind Tokens so wichtig (Kosten, Kontext, Limits)?

Tokens sind in der Praxis die „Währung“ von generativer KI:

  • Kosten: Viele Anbieter rechnen pro 1.000 oder 1.000.000 Tokens ab – getrennt nach Input (Prompt) und Output (Antwort). Lange System-Prompts, große Dokumente oder ausführliche Antworten erhöhen die Token-Zahl.
  • Kontextfenster: Ein Modell kann nur eine begrenzte Anzahl Tokens gleichzeitig berücksichtigen. Wird das Limit überschritten, müssen Inhalte gekürzt, zusammengefasst oder ausgelagert werden (z. B. via RAG (Retrieval-Augmented Generation)).
  • Qualität & Steuerbarkeit: Token-Limits beeinflussen, ob ein Modell genug Kontext hat, um konsistent zu antworten, oder ob es eher zu Fehlern bzw. Halluzinationen (Hallucinations) neigt.

Beispiele aus dem Alltag (Prompting, RAG, Automation)

Faustregeln (ohne exakte Garantie)

Als grobe Orientierung gilt: In vielen Setups entsprechen 100 Tokens ungefähr 60–80 Wörtern (abhängig von Sprache, Formatierung, Fachbegriffen und Sonderzeichen). Code, lange Komposita, Tabellen oder JSON können deutlich mehr Tokens erzeugen als Fließtext.

Was kostet Tokenisierung?

Tokenisierung selbst ist meist kein separater Preisposten, aber sie bestimmt direkt die Abrechnung: Je mehr Tokens im Prompt und in der Antwort, desto höher die Kosten. Preisfaktoren sind u. a. Modellwahl (z. B. „klein“ vs. „stark“), Länge der Konversation (Kontext wächst) und ob zusätzliche Schritte wie Function Calling / Tool Use eingesetzt werden.

Zahlen & Fakten

0–50%
Kostenanteil PromptingBei vielen LLM-Anwendungen in KMU entfällt ein großer Teil der API-Kosten direkt auf die Anzahl der verarbeiteten Tokens in Ein- und Ausgabe.
0–4x
mehr KontextbedarfMehrsprachige Dokumente, lange PDFs und unstrukturierte Inhalte erhöhen den Token-Bedarf im B2B-Alltag oft um ein Mehrfaches gegenüber einfachen Chat-Anfragen.
0–25%
Ersparnis durch ChunkingSaubere Tokenisierung und sinnvoll segmentierte Inhalte senken in Wissensdatenbanken und Support-Workflows häufig den Token-Verbrauch und damit die laufenden Kosten.

Anwendungsfälle in der Praxis

Bist du bereit für Tokenisierung und Tokens?

Beantworte 5 kurze Fragen und finde heraus, wo du stehst.
Weißt du, dass Texteingaben und Ausgaben in KI-Systemen in Tokens statt in Wörtern gezählt werden?
Berücksichtigst du Tokens bereits, wenn du Kosten oder die Nutzung von KI-Modellen planst?
Prüfst du bei längeren Prompts oder Dokumenten aktiv, ob Kontextfenster oder Token-Limits überschritten werden?
Optimierst du Prompts, Inhalte oder Workflows gezielt, um Token-Verbrauch zu senken und Antworten stabiler zu machen?
Hast du für dein Team oder deine Anwendungen bereits Regeln, Monitoring oder Prozesse für Token-Nutzung und Kostenkontrolle etabliert?

Weißt du, wie viele Tokens deine KI-Prozesse wirklich kosten?

Tokenisierung beeinflusst direkt, wie viel Kontext deine KI verarbeiten kann, wie präzise Antworten ausfallen und welche laufenden Kosten entstehen. Wenn du KI-Workflows, Custom GPTs oder RAG-Systeme in deinem Unternehmen einsetzen willst, solltest du verstehen, wie Tokens in der Praxis dein Setup begrenzen oder verteuern. In der „KI-Beratung & Hilfestellung“ prüfen wir gemeinsam, welche Anwendungsfälle sinnvoll sind, wie du Token-Verbrauch reduzierst und welche KI-Lösung für dein Team wirklich wirtschaftlich ist.

Häufig gestellte Fragen

Was ist ein Token in KI und Large Language Models?
Ein Token ist die kleinste Texteinheit, die ein KI-Modell intern verarbeitet – zum Beispiel ein Wort, ein Wortteil, eine Zahl oder ein Satzzeichen. Bei LLMs entscheidet die Anzahl der Tokens darüber, wie Eingaben gelesen, Antworten erzeugt und Kosten sowie Limits berechnet werden.