TAllgemein

Top-k / Top-p (Nucleus Sampling)

Sampling-Strategien zur Begrenzung der Token-Auswahl beim Generieren.

Top-k und Top-p (Nucleus Sampling) sind Sampling-Strategien, die bei der Textgenerierung in Large Language Model (LLM)s eingesetzt werden, um die Auswahl möglicher nächster Tokens zu begrenzen. Dadurch wird die Ausgabe kontrollierbarer: weniger Zufall, weniger Ausreißer – und je nach Einstellung mehr Konsistenz oder mehr Kreativität.

Beim Generieren berechnet ein Modell wie ChatGPT für jeden Schritt eine Wahrscheinlichkeitsverteilung über alle möglichen nächsten Tokens. Ohne Begrenzung kann auch ein sehr unwahrscheinliches Token gezogen werden, was zu sprunghaften Formulierungen oder mehr Halluzinationen (Hallucinations) führen kann. Top-k und Top-p schneiden die Kandidatenliste daher gezielt zu.

Was bedeutet Top-k?

Top-k Sampling bedeutet: Es werden nur die k wahrscheinlichsten Tokens als Kandidaten zugelassen. Aus diesen k Tokens wird anschließend zufällig gezogen (typisch zusätzlich skaliert über eine Temperature-Einstellung, auch wenn diese hier nicht im Fokus steht).

k klein (z. B. 10–40): konservativer, stabiler, weniger überraschend.
k groß (z. B. 100–500): vielfältiger, aber potenziell mehr Abschweifungen.

Beispiel: Wenn das Modell nach „Die Hauptstadt von Frankreich ist …“ die höchsten Wahrscheinlichkeiten für „Paris“, „Lyon“, „Marseille“ usw. hat, lässt Top-k nur die Top-k Optionen zu – sehr unwahrscheinliche Tokens werden komplett ausgeschlossen.

Was bedeutet Top-p (Nucleus Sampling)?

Top-p Sampling (auch Nucleus Sampling) wählt nicht eine feste Anzahl, sondern die kleinste Menge der wahrscheinlichsten Tokens, deren kumulierte Wahrscheinlichkeit mindestens p erreicht (z. B. p = 0,9). Dadurch passt sich die Kandidatenmenge dynamisch an die Situation an.

Wenn das Modell sehr sicher ist, reichen wenige Tokens, um z. B. 90% Wahrscheinlichkeit abzudecken.
Wenn das Modell unsicher ist, werden mehr Tokens benötigt – die Auswahl wird breiter.

Beispiel: Bei einer eindeutigen Fortsetzung („… ist Paris“) kann Top-p sehr wenige Kandidaten zulassen. Bei kreativen Texten oder offenen Fragen lässt Top-p automatisch mehr Varianten zu, ohne dass du k manuell passend wählen musst.

Wie funktioniert Top-k / Top-p in der Praxis? (Schritt-für-Schritt)

1) Wahrscheinlichkeiten berechnen: Das Modell erzeugt Scores/Probabilities für alle Tokens.
2) Kandidaten begrenzen: Entweder auf die Top-k Tokens oder auf den „Nucleus“ bis zur Schwelle p.
3) Neu normalisieren: Die Wahrscheinlichkeiten der übrig gebliebenen Tokens werden auf 100% skaliert.
4) Token sampeln: Ein Token wird zufällig gemäß der neuen Verteilung gewählt.
5) Wiederholen: Das Verfahren läuft Token für Token, bis der Text fertig ist.

Warum ist das wichtig (z. B. für Automation, Agents und Qualität)?

In Inference-Setups, in AI Agents (KI-Agenten)-Workflows oder Automationen mit n8n willst du oft reproduzierbare, sichere Ausgaben (z. B. strukturierte Antworten, Tool-Parameter für Function Calling / Tool Use). Zu „breites“ Sampling kann zu inkonsistenten Ergebnissen führen; zu „enges“ Sampling kann Texte monoton machen oder in Wiederholungen enden. Top-p ist häufig beliebt, weil es sich an die Modellunsicherheit anpasst. Top-k ist leicht zu verstehen und gut, wenn du eine feste Obergrenze an Variabilität wünschst.

Wann nutze ich eher Top-k, wann eher Top-p?

Top-k: Wenn du eine harte, einfache Begrenzung willst (z. B. für standardisierte Antworten, Templates, kurze Klassifikations-Outputs).
Top-p: Wenn du robuste Qualität über unterschiedliche Prompt-Typen willst (z. B. Erklärtexte, kreative Varianten, Dialoge), ohne k ständig nachzujustieren.

Wichtig: Top-k/Top-p sind Stellschrauben für die Auswahl von Tokens, nicht für das Wissen des Modells. Für faktische Zuverlässigkeit helfen zusätzlich Methoden wie RAG (Retrieval-Augmented Generation) oder sauberes Prompt Engineering.

← Zurück zur Übersicht