Temperature & Sampling (Temperatur & Sampling)
Temperature & Sampling (Temperatur & Sampling) sind Parameter bei der Textgenerierung, die steuern, wie „kreativ“ oder „deterministisch“ ein Sprachmodell antwortet. Sie beeinflussen, ob ein Large Language Model (LLM) eher die wahrscheinlichsten Wörter wählt (präzise, wiederholbar) oder mehr Variation zulässt (kreativer, aber potenziell ungenauer).
Was bedeutet „Temperature“ bei KI-Modellen?
Temperature skaliert die Wahrscheinlichkeitsverteilung der nächsten Token (Wort-/Zeichenbausteine). Bei niedriger Temperatur werden Unterschiede zwischen wahrscheinlichen und unwahrscheinlichen Token stärker betont: Das Modell greift fast immer zur „naheliegendsten“ Fortsetzung. Bei hoher Temperatur wird die Verteilung „flacher“: Auch weniger wahrscheinliche Tokens werden häufiger gewählt – das erhöht Vielfalt, aber auch das Risiko für Fehler oder Halluzinationen (Hallucinations).
- Niedrige Temperature (z. B. 0.0–0.3): sehr konsistent, gut für Fakten, Zusammenfassungen, Extraktion, Code.
- Mittlere Temperature (z. B. 0.4–0.8): ausgewogene Mischung aus Präzision und Variation.
- Hohe Temperature (z. B. 0.9–1.2+): kreativ, überraschend, aber weniger zuverlässig.
Was bedeutet „Sampling“?
Sampling beschreibt die Methode, wie aus den Wahrscheinlichkeiten konkret ausgewählt wird. Statt immer das Top-Token zu nehmen (greedy decoding), wird aus einer Menge möglicher Tokens „gezogen“. Übliche Sampling-Strategien sind:
- Top-k-Sampling: Es werden nur die k wahrscheinlichsten Tokens betrachtet (z. B. k=50). Das begrenzt Ausreißer.
- Top-p / Nucleus-Sampling: Es wird die kleinste Token-Menge gewählt, deren kumulative Wahrscheinlichkeit p erreicht (z. B. p=0.9). Das passt sich dynamisch an den Kontext an.
- Greedy / Beam (ohne Sampling): eher deterministisch; gut für Reproduzierbarkeit, aber manchmal „steif“ oder repetitiv.
Wie funktioniert Temperature & Sampling in der Praxis?
- Schritt 1: Das Modell berechnet Wahrscheinlichkeiten für das nächste Token (Teil der Inference).
- Schritt 2: Temperature skaliert diese Wahrscheinlichkeiten (niedrig = spitzer, hoch = flacher).
- Schritt 3: Sampling (z. B. Top-p) begrenzt den Kandidatenraum.
- Schritt 4: Ein Token wird gezogen und an den Text angehängt.
- Schritt 5: Das wiederholt sich, bis die Antwort fertig ist.
Warum sind Temperature & Sampling wichtig?
Sie sind ein zentraler Hebel, um Antworten an den Use Case anzupassen: In Support- oder Compliance-Kontexten willst du Stabilität und geringe Varianz; in Kreativ-Workflows (Ideen, Marketing-Varianten) willst du Vielfalt. In Automations mit n8n oder Agenten-Workflows (z. B. AI Agents (KI-Agenten)) sind konservative Einstellungen oft sinnvoll, weil unvorhersehbare Ausgaben nachgelagerte Schritte (Parsing, Tools, Datenbanken) stören können.
Beispiele: Welche Einstellungen passen wozu?
- Faktenorientierte Antwort zu Datenschutz (DSGVO/GDPR) & KI: Temperature niedrig (0.1–0.3), Top-p moderat (0.8–0.95) → konsistent, weniger Ausschmückung.
- 10 Headline-Varianten für ein Produkt: Temperature höher (0.8–1.1), Top-p 0.9–0.95 → mehr kreative Streuung.
- RAG-Setup mit RAG (Retrieval-Augmented Generation): Temperature eher niedrig, um nah an den Quellen zu bleiben und Halluzinationen zu reduzieren.
Wichtig: Temperature & Sampling steuern Stil und Varianz – sie „machen“ ein Modell nicht automatisch wahrheitsgetreu. Für verlässliche Ergebnisse kombiniert man sie mit gutem Prompt Engineering, klaren Output-Formaten und ggf. Retrieval über Embeddings und eine Vektordatenbank (Vector Database).