DAllgemein

Distillation (Wissensdistillation)

Kleines Modell lernt Verhalten eines großen Teacher-Modells.

Distillation (Wissensdistillation) ist ein Verfahren im Machine Learning, bei dem ein kleines, schnelles Modell (Student) das Verhalten eines großen, leistungsstarken Modells (Teacher) nachahmt. Ziel ist, die Qualität des großen Modells möglichst gut zu behalten, aber Rechenkosten, Latenz und Infrastrukturbedarf deutlich zu senken – etwa für den Einsatz auf Edge-Geräten oder in kostenkritischen Produktivsystemen.

Was bedeutet Distillation (Wissensdistillation)?

„Wissensdistillation“ bedeutet wörtlich, Wissen zu „destillieren“: Statt nur mit harten Labels (richtig/falsch) zu lernen, trainiert der Student auf die Ausgaben des Teacher-Modells. Diese Ausgaben enthalten oft mehr Information als reine Klassenlabels – z. B. Wahrscheinlichkeitsverteilungen oder feinere Präferenzen in Antworten. So kann ein kleineres Modell Entscheidungsgrenzen und Stil des Teachers besser übernehmen.

Wie funktioniert Wissensdistillation?

Typisch läuft Distillation in mehreren Schritten ab:

  • Teacher wählen: Häufig ein großes Large Language Model (LLM) oder ein spezialisiertes Modell mit hoher Qualität.
  • Datenbasis definieren: Entweder bestehende Trainingsdaten oder neue Prompts/Inputs, die der Teacher beantwortet.
  • Teacher-Outputs erzeugen: Der Teacher liefert „Soft Targets“ (z. B. Token-Wahrscheinlichkeiten, Rankings oder Beispielantworten).
  • Student trainieren: Der Student minimiert eine Distillation-Loss, die ihn an die Teacher-Ausgaben annähert (oft kombiniert mit klassischem Training auf Ground Truth).
  • Evaluation & Iteration: Qualität, Robustheit, Halluzinationsrate und Latenz werden geprüft; ggf. werden Daten/Prompts nachgeschärft.

Beispiel aus der Praxis (LLMs, Chatbots, Automation)

Angenommen, ein Unternehmen nutzt ChatGPT oder ein anderes großes Large Language Model (LLM) als Teacher, um hochwertige Support-Antworten zu erzeugen. Für den produktiven Betrieb (z. B. in einem Ticket-System oder per n8n-Workflow für Automatisierung (Automation)) kann ein kleiner Student distilliert werden, der:

  • schneller antwortet (geringere Latenz),
  • günstiger pro Anfrage ist (weniger GPU/CPU-Zeit),
  • leichter on-prem oder in einer restriktiven Umgebung betrieben werden kann (relevant für Datenschutz (DSGVO/GDPR) & KI).

Gerade bei wiederkehrenden Aufgaben (FAQ, Klassifikation, Extraktion, Routing) ist Distillation oft effizienter als jedes Mal ein sehr großes Modell aufzurufen.

Warum ist Distillation wichtig?

  • Kosten & Skalierung: Weniger Rechenaufwand senkt Inference-Kosten und erleichtert hohe Request-Zahlen (siehe Inference).
  • Performance in Produkten: Kürzere Antwortzeiten verbessern UX in Chatbots, Agents und Automationen.
  • Deployment-Flexibilität: Kleinere Modelle lassen sich leichter in MLOps-Pipelines integrieren (siehe MLOps).
  • Wissensübertragung: Der Student übernimmt Stil, Prioritäten und „Entscheidungslogik“ des Teachers – ohne dessen Größe.

Distillation vs. Fine-Tuning (und LoRA)

Distillation und Fine-Tuning verfolgen unterschiedliche Ziele: Fine-Tuning passt ein Modell an neue Daten/Domain an. Distillation zielt primär darauf, ein leistungsstarkes Modell in ein kleineres zu „komprimieren“. In der Praxis werden beide kombiniert: Man kann erst distillieren und dann feinjustieren – oder umgekehrt. Parameter-effiziente Methoden wie LoRA helfen zusätzlich, Anpassungen günstiger zu trainieren, ersetzen aber nicht automatisch den Kompressionseffekt der Distillation.

Grenzen und Risiken

Ein Student ist selten „genauso gut“ wie der Teacher: Bei komplexen Aufgaben kann Qualität sinken oder sich das Fehlerprofil verändern (z. B. andere Halluzinationen (Hallucinations)). Außerdem hängt der Erfolg stark von den Distillation-Daten ab: Wenn Prompts/Outputs nicht repräsentativ sind, lernt der Student die falschen Schwerpunkte. Für regulierte Umfelder sollten zudem Governance-Anforderungen (siehe AI Governance und EU AI Act) berücksichtigt werden.