SAllgemein

SFT (Supervised Fine-Tuning)

Überwachtes Fine-Tuning mit Input/Output-Beispielen

SFT (Supervised Fine-Tuning) ist ein überwachtes Fine-Tuning-Verfahren, bei dem ein vortrainiertes Large Language Model (LLM) mit kuratierten Input/Output-Beispielen weitertrainiert wird. Ziel ist, dass das Modell auf bestimmte Aufgaben, Tonalitäten oder Formate zuverlässiger reagiert – etwa wie ein Support-Chat, ein Unternehmensassistent oder ein Extraktionsmodell.

Was bedeutet SFT (Supervised Fine-Tuning)?

SFT bedeutet wörtlich „überwachtes Feinabstimmen“. „Überwacht“ heißt: Für jedes Trainingsbeispiel gibt es eine gewünschte Zielantwort (Label). Das Modell lernt, aus einem Eingabetext (Prompt) die passende Ausgabe zu generieren, indem es seine Parameter so anpasst, dass die Zielantwort wahrscheinlicher wird.

Wie funktioniert SFT?

Beim SFT wird ein bereits vortrainiertes Modell (z. B. ein Generative KI (Generative AI)-Modell) auf einen spezifischen Datensatz aus Prompt->Antwort-Paaren trainiert. Typische Schritte:

Datensammlung: Reale Beispiele (z. B. interne FAQs, Agenten-Dialoge) oder synthetisch erzeugte Beispiele.
Formatierung: Einheitliches Prompt-Format, ggf. mit Rollen (System/User/Assistant) und klaren Ausgaberegeln (z. B. JSON).
Training: Optimierung auf die Zielantworten (meist Next-Token-Loss), oft effizient über LoRA statt Full Fine-Tune.
Evaluation: Tests gegen ein Golden Set, z. B. mit Evaluation (Eval) & Benchmarking.
Deployment: Nutzung in der Inference und Monitoring im Betrieb.

Wofür nutzt man SFT in der Praxis?

SFT ist besonders nützlich, wenn du ein Modell „in Form bringen“ willst: konsistent, markenkonform, prozessnah. Beispiele:

Ton & Stil: Das Modell schreibt im Unternehmens-Wording (z. B. freundlich, knapp, mit Du/Sie-Regeln).
Task-Spezialisierung: Klassifikation, Extraktion, Zusammenfassungen, Text-to-SQL, Ticket-Triage.
Strukturierte Ausgaben: Stabilere Ausgabeformate (z. B. JSON), oft in Kombination mit Structured Outputs (JSON Schema).
Tool-Workflows: Bessere Vorbereitung für Function Calling / Tool Use und Agenten-Flows (z. B. in n8n).

SFT vs. RAG vs. Prompt Engineering

SFT wird häufig mit anderen Methoden kombiniert, ist aber nicht dasselbe:

Prompt Engineering verändert das Verhalten ohne Training – schnell, günstig, aber begrenzt stabil.
RAG (Retrieval-Augmented Generation) liefert aktuelles/unternehmensinternes Wissen zur Laufzeit nach, ohne Modellgewichte zu ändern.
SFT verändert das Modellverhalten dauerhaft (Gewichte/Adapter), ideal für Stil, Regeln und wiederkehrende Aufgaben.

Warum ist SFT wichtig (und wo sind Grenzen)?

SFT verbessert Konsistenz, reduziert „Ausreißer“ und kann Halluzinationsmuster in bestimmten Aufgaben verringern – ersetzt aber keine Wissensbasis. Für faktisches, dynamisches Wissen ist oft RAG (Retrieval-Augmented Generation) besser. Außerdem gilt: Qualität der Daten ist entscheidend; schlechte Beispiele führen zu „schlecht antrainiertem“ Verhalten. Für Sicherheits- und Präferenzsteuerung wird SFT oft durch Alignment-Methoden wie RLHF (Reinforcement Learning from Human Feedback) oder DPO (Direct Preference Optimization) ergänzt.

Was kostet SFT?

Die Kosten hängen vor allem von Datenmenge, Modellgröße, Trainingsdauer und Infrastruktur ab. Günstiger wird es häufig durch parameter-effiziente Verfahren wie LoRA. Typische Kostentreiber sind zusätzlich Datenaufbereitung, Qualitätssicherung, Evals und Betrieb (Monitoring, Updates im Rahmen von MLOps).

← Zurück zur Übersicht