Model Poisoning (Modellvergiftung)
Model Poisoning (Modellvergiftung) bezeichnet die gezielte Manipulation von Trainingsdaten, Fine-Tuning-Daten oder Modell-Updates, um das Verhalten eines KI-Modells dauerhaft zu verändern – etwa damit es bestimmte Inhalte bevorzugt ausgibt, Sicherheitsregeln umgeht oder bei speziellen Triggern „hintertürartig“ reagiert. Im Unterschied zu Angriffen zur Laufzeit wirkt Model Poisoning auf die Parameter des Modells und kann dadurch langfristig und schwer erkennbar sein.
Was bedeutet Model Poisoning konkret?
Bei Model Poisoning versucht ein Angreifer, den Lernprozess zu „vergiften“. Das kann bei großen Sprachmodellen (z. B. Large Language Model (LLM)) in verschiedenen Phasen passieren: beim Vortraining, beim Fine-Tuning (inkl. Verfahren wie LoRA) oder bei kontinuierlichen Updates in einer MLOps-Pipeline (MLOps). Ziel ist nicht nur „schlechtere Qualität“, sondern oft eine gezielte Steuerung: Das Modell soll unter bestimmten Bedingungen falsche, voreingenommene oder unsichere Antworten liefern.
Wie funktioniert Model Poisoning? (typische Vorgehensweisen)
- Datenvergiftung: Der Angreifer schleust manipulierte Beispiele in Trainings- oder Fine-Tuning-Daten ein (enge Verwandtschaft zu Data Poisoning (Datenvergiftung)). Dadurch lernt das Modell unerwünschte Zusammenhänge.
- Backdoor/Trigger-Angriffe: Bestimmte Wörter, Formate oder Muster dienen als Trigger. Ohne Trigger wirkt das Modell normal; mit Trigger folgt es einer „versteckten“ Regel (z. B. Sicherheitsfilter umgehen).
- Vergiftete Modell-Updates: In verteilten oder iterativen Trainingsprozessen (z. B. mehrere Teams/Instanzen liefern Updates) können Parameter-Updates manipuliert werden, sodass schädliche Verhaltensweisen ins Endmodell einfließen.
- Supply-Chain-Angriffe: Ein kompromittiertes Basismodell, ein manipuliertes Checkpoint-File oder eine „optimierte“ Community-Variante wird übernommen und trägt die Vergiftung bereits in sich.
Beispiele aus der Praxis (LLM- & Automation-Kontext)
- Vergiftetes Fine-Tuning für Support-Bots: Ein internes Modell wird mit Tickets nachtrainiert. Werden in diesen Daten systematisch falsche „Lösungen“ platziert, kann das Modell später plausibel klingende, aber falsche Anweisungen geben – mit realen Kosten im Betrieb.
- Backdoor für Tool-Nutzung: Nutzt ein Agent Function Calling / Tool Use (z. B. in n8n-Workflows), könnte eine Vergiftung dazu führen, dass bei einem Trigger unerwünschte Tools aufgerufen oder riskante Parameter gesetzt werden (z. B. Datenexport statt Zusammenfassung).
- Manipulation von Sicherheitsverhalten: Ein Modell wird so vergiftet, dass es bei bestimmten Phrasen eher zu Jailbreak-ähnlichen Antworten tendiert (Abgrenzung zu Prompt Injection und Jailbreak: Dort wird das Modell zur Laufzeit über Eingaben ausgetrickst, hier wird es „umtrainiert“).
Warum ist Model Poisoning wichtig?
Model Poisoning ist kritisch, weil es Vertrauen, Compliance und Sicherheit untergräbt: Ein vergiftetes Modell kann still und selektiv falsche Informationen liefern, Entscheidungen verzerren oder Schutzmechanismen umgehen. Besonders heikel ist das in regulierten Umgebungen (Stichworte AI Governance und EU AI Act) sowie überall dort, wo Modelle automatisiert handeln oder Daten verarbeiten (DSGVO-Risiken bei Datenschutz (DSGVO/GDPR) & KI).
Wie kann man sich schützen? (Kurzüberblick)
- Datenherkunft absichern: klare Quellen, Freigaben, Versionierung, Zugriffskontrollen.
- Training/Evals härten: kontinuierliche Evaluation (Eval) & Benchmarking, Red-Teaming (Red Teaming (KI-Red-Teaming)) und Regressionstests.
- Supply-Chain prüfen: Signaturen/Hashes, Model Registry (Model Registry (Modell-Registry)), reproduzierbare Builds.
- Monitoring: laufende Überwachung von Output-Drift und Anomalien (siehe Model Monitoring & Observability (LLMOps)).
Fazit: Model Poisoning ist eine Form der Modellmanipulation, die nicht nur die Antwortqualität senkt, sondern gezielt schädliche oder versteckte Verhaltensmuster in KI-Systeme einschleusen kann – besonders riskant bei produktiven LLMs, Agenten und automatisierten Workflows.