TAllgemein

Token (Tokens) & Tokenisierung (Tokenization)

Zerlegung von Text in Einheiten; Basis für Kosten, Kontext und Limits.

3 Aufrufe

Token (Plural: Tokens) sind die Textbausteine, in die ein KI-System Eingaben und Ausgaben zerlegt – z. B. Wörter, Wortteile oder Satzzeichen. Diese Tokenisierung (Tokenization) ist die Grundlage dafür, wie Large Language Model (LLM)s Text „lesen“, wie viel Kontext sie behalten können (Kontextfenster) und wie sich Nutzungskosten sowie Limits (Input/Output) berechnen.

Was bedeutet „Token“ in KI und LLMs?

Ein Token ist eine Einheit, die ein Sprachmodell intern verarbeitet. Anders als „Wörter“ sind Tokens oft Subwords (Wortteile). Beispiel: „Automatisierung“ kann je nach Tokenizer in mehrere Teile zerfallen. Auch Leerzeichen, Emojis, Sonderzeichen oder Code-Fragmente können eigene Tokens sein. Dadurch kann ein Modell flexibel mit unbekannten Wörtern, Fachbegriffen oder zusammengesetzten deutschen Wörtern umgehen.

Wie funktioniert Tokenisierung (Tokenization)?

1) Vorverarbeitung: Text wird normalisiert (z. B. Umgang mit Leerzeichen, Sonderzeichen, Unicode).
2) Zerlegung in Token-Kandidaten: Ein Tokenizer (häufig BPE/Byte-Pair-Encoding oder ähnliche Subword-Verfahren) teilt den Text in häufig vorkommende Teile.
3) Mapping auf Token-IDs: Jedes Token wird in eine Zahl (ID) übersetzt, die das Modell verarbeitet.
4) Modellverarbeitung: Das Modell berechnet aus Token-IDs Wahrscheinlichkeiten für die nächsten Tokens und erzeugt so die Antwort.

Wichtig: Unterschiedliche Modelle nutzen unterschiedliche Tokenizer. Derselbe Satz kann daher je nach Modell unterschiedlich viele Tokens ergeben – relevant für Kosten und Limits bei ChatGPT oder API-Nutzung.

Warum sind Tokens so wichtig (Kosten, Kontext, Limits)?

Tokens sind in der Praxis die „Währung“ von generativer KI:

Kosten: Viele Anbieter rechnen pro 1.000 oder 1.000.000 Tokens ab – getrennt nach Input (Prompt) und Output (Antwort). Lange System-Prompts, große Dokumente oder ausführliche Antworten erhöhen die Token-Zahl.
Kontextfenster: Ein Modell kann nur eine begrenzte Anzahl Tokens gleichzeitig berücksichtigen. Wird das Limit überschritten, müssen Inhalte gekürzt, zusammengefasst oder ausgelagert werden (z. B. via RAG (Retrieval-Augmented Generation)).
Qualität & Steuerbarkeit: Token-Limits beeinflussen, ob ein Modell genug Kontext hat, um konsistent zu antworten, oder ob es eher zu Fehlern bzw. Halluzinationen (Hallucinations) neigt.

Beispiele aus dem Alltag (Prompting, RAG, Automation)

Prompt Engineering: Kürzere, präzisere Prompts sparen Tokens und reduzieren Kosten – ohne Informationsverlust.
RAG (Retrieval-Augmented Generation) & Vektordatenbank (Vector Database): Statt ganze Dokumente in den Prompt zu kopieren, werden nur relevante Textpassagen als Tokens in den Kontext geladen.
n8n & Automatisierung (Automation): In Workflows (z. B. Support-Antworten, Lead-Qualifizierung) hilft Token-Tracking, Budgets und Antwortlängen zu kontrollieren.
Embeddings: Auch Embedding-Modelle tokenisieren Text; sehr lange Texte müssen oft segmentiert werden, bevor sie eingebettet werden.

Faustregeln (ohne exakte Garantie)

Als grobe Orientierung gilt: In vielen Setups entsprechen 100 Tokens ungefähr 60–80 Wörtern (abhängig von Sprache, Formatierung, Fachbegriffen und Sonderzeichen). Code, lange Komposita, Tabellen oder JSON können deutlich mehr Tokens erzeugen als Fließtext.

Was kostet Tokenisierung?

Tokenisierung selbst ist meist kein separater Preisposten, aber sie bestimmt direkt die Abrechnung: Je mehr Tokens im Prompt und in der Antwort, desto höher die Kosten. Preisfaktoren sind u. a. Modellwahl (z. B. „klein“ vs. „stark“), Länge der Konversation (Kontext wächst) und ob zusätzliche Schritte wie Function Calling / Tool Use eingesetzt werden.

← Zurück zur Übersicht