Attention-Mechanismus (Self-Attention)
Der Attention-Mechanismus (Self-Attention) ist ein Verfahren in Transformer-Modellen, das jedem Token in einer Sequenz „Aufmerksamkeit“ auf andere Tokens zuweist. So kann das Modell relevante Bezüge gewichten (z. B. Pronomen, Fachbegriffe, Satzteile) und Bedeutung aus dem Kontext ableiten – eine Kernfunktion moderner Large Language Model (LLM)s wie ChatGPT.
Was bedeutet „Attention“ bzw. „Self-Attention“?
„Attention“ beschreibt die Idee, dass ein Modell nicht alle Wörter gleich behandelt, sondern je nach Aufgabe bestimmte Teile stärker berücksichtigt. „Self-Attention“ bedeutet, dass die Aufmerksamkeit innerhalb derselben Eingabesequenz berechnet wird: Jedes Token schaut auf alle anderen Tokens (inkl. sich selbst) und entscheidet, welche Informationen für die aktuelle Repräsentation wichtig sind.
Wie funktioniert der Attention-Mechanismus?
Vereinfacht läuft Self-Attention in Transformern in drei Schritten ab. Aus jedem Token werden drei Vektoren berechnet: Query (Q), Key (K) und Value (V). Daraus entstehen Aufmerksamkeitsgewichte, die bestimmen, wie stark ein Token andere Tokens „einfließen“ lässt.
- 1) Ähnlichkeit berechnen: Für ein Token wird sein Query mit den Keys aller Tokens verglichen (z. B. per Skalarprodukt). Das ergibt Scores: „Wie relevant ist Token B für Token A?“
- 2) Gewichte normalisieren: Eine Softmax-Funktion macht aus Scores Wahrscheinlichkeiten (Summe = 1). Dadurch entstehen gut interpretierbare Gewichte.
- 3) Kontextvektor bilden: Die Values aller Tokens werden mit diesen Gewichten gemittelt. Ergebnis: ein kontextsensitiver Vektor, der die Bedeutung des Tokens im Satz widerspiegelt.
In der Praxis wird das parallel über viele „Köpfe“ gerechnet (Multi-Head Attention): Jeder Kopf kann andere Beziehungstypen lernen (z. B. Syntax, Referenzen, thematische Nähe). Das ist einer der Gründe, warum Transformer so leistungsfähig sind.
Warum ist Self-Attention so wichtig für KI und LLMs?
- Kontextverständnis: Self-Attention verbindet weit entfernte Wörter direkt, ohne Schritt-für-Schritt-Abhängigkeit wie bei RNNs. Das hilft bei langen Sätzen und komplexen Abhängigkeiten.
- Skalierbarkeit: Attention lässt sich stark parallelisieren, was Training und Inference auf moderner Hardware beschleunigt.
- Grundlage für Generative KI: Viele Fähigkeiten von Generative KI (Generative AI) – Zusammenfassen, Übersetzen, Code, Reasoning – bauen auf diesen kontextsensitiven Repräsentationen auf.
Beispiele aus der Praxis
- Pronomen-Auflösung: In „Anna gab Maria das Buch, weil sie es brauchte“ hilft Attention, „sie“ korrekt zuzuordnen (Anna oder Maria – abhängig vom Kontext).
- Fachbegriffe in Workflows: In Automations-Setups mit n8n oder bei Tool-Aufrufen via Function Calling / Tool Use muss das Modell relevante Parameter (z. B. Datum, ID, Zielsystem) aus dem Prompt herausfiltern – Attention hebt diese Tokens hervor.
- RAG & Wissensabruf: Bei RAG (Retrieval-Augmented Generation) werden gefundene Textpassagen in den Kontext gelegt; Self-Attention entscheidet, welche Stellen aus den Quellen für die Antwort wichtig sind.
Grenzen und typische Missverständnisse
Attention ist nicht automatisch „Erklärung“ oder „Wahrheit“. Auch wenn Gewichte interpretierbar wirken, garantieren sie keine korrekte Begründung. Zudem kann Self-Attention trotz guter Kontextnutzung weiterhin zu Halluzinationen (Hallucinations) führen, wenn Informationen fehlen oder der Prompt unklar ist (siehe Prompt Engineering). Außerdem steigt der Rechenaufwand typischerweise quadratisch mit der Sequenzlänge – weshalb es viele Optimierungen für lange Kontexte gibt.