LoRA (Low-Rank Adaptation) | LoRA
LoRA (Low-Rank Adaptation) ist eine Methode aus dem Bereich Parameter-Efficient Fine-Tuning, mit der man ein vortrainiertes KI-Modell (z. B. ein Large Language Model (LLM)) an neue Aufgaben anpasst, ohne alle Modellgewichte neu zu trainieren. Stattdessen werden kleine Zusatzmatrizen (Low-Rank-Adapter) trainiert, die nur wenige Parameter benötigen und sich später zum Basismodell dazuschalten lassen.
Was bedeutet LoRA (Low-Rank Adaptation)?
„Low-Rank“ bedeutet, dass die trainierten Zusatzmatrizen bewusst eine geringe Rangzahl (Rank) haben. Dadurch bleibt die Anzahl der zu lernenden Parameter klein. „Adaptation“ beschreibt, dass diese Adapter das Verhalten des Modells für einen bestimmten Zweck verändern, z. B. für eine bestimmte Schreibweise, ein Fachgebiet oder einen Output-Stil.
Wie funktioniert LoRA?
Bei klassischem Fine-Tuning werden viele oder alle Gewichte eines Modells aktualisiert – das ist teuer (GPU, Zeit, Speicher) und erschwert das Verwalten mehrerer Varianten. LoRA friert das Basismodell ein und lernt nur kleine Adapter, die an ausgewählten Stellen (häufig in Attention- oder Feedforward-Schichten) „eingeschleust“ werden.
- 1) Basismodell einfrieren: Die ursprünglichen Gewichte bleiben unverändert.
- 2) Adapter einfügen: Für bestimmte Gewichtsmatrizen werden zwei kleine Matrizen (oft A und B) mit niedrigem Rank trainiert.
- 3) Training nur der Adapter: Optimiert werden nur diese Zusatzparameter – deutlich weniger Speicherbedarf als Voll-Fine-Tuning.
- 4) Nutzung in der Inferenz: Bei der Inference werden die Adapter zugeschaltet (oder mit dem Modell „gemerged“), um das gewünschte Verhalten zu erhalten.
Wofür nutzt man LoRA in der Praxis?
- Domänenanpassung: Ein LLM wird auf juristische, medizinische oder interne Unternehmenssprache angepasst, ohne ein komplett neues Modell zu pflegen.
- Stil & Tonalität: Ein Support- oder Marketing-Assistant schreibt konsistent im gewünschten Brand-Voice (z. B. „kurz, freundlich, lösungsorientiert“).
- Task-Spezialisierung: Strukturierte Extraktion, Klassifikation oder Textumformung, oft als Alternative oder Ergänzung zu Prompt Engineering.
- Generative Medien: Bekannt aus Bildmodellen (z. B. Stable Diffusion), um bestimmte Charaktere/Styles als leichtes Adapterpaket zu speichern.
Warum ist LoRA wichtig?
LoRA reduziert Kosten und Komplexität: Statt viele Modellkopien zu speichern, verwaltet man kleine Adapter-Dateien pro Use Case. Das ist besonders attraktiv, wenn Teams mehrere Varianten brauchen (z. B. Vertrieb, HR, Support) oder wenn man Modelle lokal bzw. kosteneffizient betreiben möchte (z. B. in Kombination mit Quantization oder On-Prem-Setups). Außerdem lässt sich LoRA gut in PEFT-Workflows einordnen (siehe PEFT (Parameter-Efficient Fine-Tuning)).
LoRA vs. RAG: Wann welches?
LoRA verändert das Modellverhalten (z. B. Stil, Format, implizites Wissen), während RAG (Retrieval-Augmented Generation) primär aktuelles/externes Wissen zur Laufzeit einblendet. Häufig ist die beste Lösung eine Kombination: RAG für Fakten/Quellen, LoRA für Tonalität, Struktur und domänentypische Antwortmuster.
Was kostet LoRA?
Konkrete Preise variieren stark, aber LoRA ist typischerweise deutlich günstiger als Voll-Fine-Tuning, weil weniger Parameter trainiert werden (weniger GPU-Speicher, kürzere Trainingszeiten). Kostentreiber sind vor allem: Modellgröße, Datenmenge/Qualität, gewünschte Rank-Größe, Trainingsdauer und Infrastruktur (Cloud vs. eigene GPUs). In Projekten ist LoRA oft die „schnelle“ Option, um mit überschaubarem Budget zu einem spezialisierten Modell zu kommen.