Copyright & KI (Urheberrecht)
Copyright & KI (Urheberrecht) bezeichnet die rechtlichen Fragen rund um das Training von KI-Modellen mit geschützten Inhalten, die Nutzung von KI-Outputs (z. B. Texte, Bilder, Code) und die passenden Lizenzen. Im Kern geht es darum, ob und wie urheberrechtlich geschützte Werke für KI verwendet werden dürfen, wem welche Rechte zustehen und wie Risiken (Abmahnung, Sperrung, Schadensersatz) minimiert werden.
Was bedeutet Copyright & KI konkret?
Im KI-Kontext treffen klassisches Urheberrecht, Vertragsrecht (AGB/Lizenzen), Datenbank- und Leistungsschutzrechte sowie neue Regulierungen aufeinander. Besonders relevant ist das bei Generative KI (Generative AI), weil sie Inhalte erzeugt, die bestehenden Werken ähneln können. Typische Streitpunkte: Wurde beim Training „kopiert“? Darf ein Unternehmen fremde Texte/Bilder für Fine-Tuning nutzen? Ist ein KI-Output selbst urheberrechtlich geschützt? Und welche Pflichten ergeben sich aus Lizenzbedingungen oder Plattformregeln?
Wie funktioniert das rechtlich entlang der KI-Wertschöpfung?
- 1) Training & Datensammlung: Beim Training eines Large Language Model (LLM) oder beim Fine-Tuning werden große Mengen Daten verarbeitet. Juristisch geht es u. a. um Text-and-Data-Mining-Ausnahmen, Rechtevorbehalte (Opt-out), Datenbankrechte und Nutzungsbedingungen der Quellen.
- 2) Inference (Nutzung): In der Phase der Inference erzeugt das Modell Output. Relevant sind Fragen wie: Entsteht eine unzulässige „nahezu identische“ Übernahme? Wird ein Stil kopiert? Werden geschützte Passagen reproduziert?
- 3) Output-Verwendung: Wer KI-Texte z. B. in Marketing, Dokus oder Code-Repos veröffentlicht, sollte prüfen, ob der Output Rechte Dritter verletzt und ob interne Policies (z. B. Quellenpflicht, Freigabeprozess) greifen.
- 4) Retrieval & Wissensintegration: Bei RAG (Retrieval-Augmented Generation) werden externe Dokumente abgerufen und in Antworten eingebunden. Hier ist entscheidend, ob Inhalte nur intern „zitiert“ werden oder ob geschützte Textteile öffentlich wiedergegeben werden (inkl. Quellenangabe, Umfang, Zweck).
Praxisbeispiele (typische Fälle)
- Marketing-Text mit KI: Ein Team nutzt ChatGPT für Produkttexte. Risiko entsteht, wenn der Output unbemerkt Passagen aus geschützten Quellen übernimmt oder markenrechtlich problematische Begriffe enthält.
- Interne Automatisierung: In Workflows mit n8n und Automatisierung (Automation) werden PDFs/Handbücher in eine Vektordatenbank (Vector Database) geladen (über Embeddings). Entscheidend ist, ob diese Dokumente lizenziert sind und ob der Zugriff auf den Output (intern vs. extern) sauber geregelt ist.
- Fine-Tuning auf Kundendaten: Beim LoRA- oder Fine-Tuning mit Kundenmaterial muss geklärt sein, ob der Kunde die nötigen Nutzungsrechte besitzt und ob eine Weitergabe an Modellanbieter erlaubt ist.
Warum ist das wichtig?
Copyright-Fragen sind ein zentraler Teil von AI-Compliance und AI Governance. Sie beeinflussen, welche Daten du überhaupt verwenden darfst, wie du Outputs sicher veröffentlichst und wie du Lieferanten (Modelle, Tools, Datenquellen) auswählst. Zusätzlich können Vorgaben aus dem EU AI Act und aus Datenschutz (DSGVO/GDPR) & KI indirekt Anforderungen an Dokumentation, Risikomanagement und Transparenz erhöhen.
Best Practices (kurz & wirksam)
- Datenherkunft klären: Nur Quellen nutzen, deren Lizenzen Training/Weiterverarbeitung erlauben (oder klare Ausnahmen greifen).
- Output-Checks: Prozesse gegen Plagiate/zu nahe Übernahmen etablieren, besonders bei publizierten Inhalten.
- Lizenz- & Vendor-Review: Nutzungsbedingungen von Modellanbietern prüfen (z. B. Rechte am Output, Haftung, Opt-out fürs Training).
- RAG richtig einsetzen: Bei Zitaten Umfang/Zweck beachten, Zugriff beschränken, Quellen dokumentieren.
Hinweis: Dieser Glossar-Eintrag ist eine allgemeine Einordnung und keine Rechtsberatung. Für konkrete Fälle (z. B. Training mit Drittinhalten oder kommerzielle Veröffentlichung) lohnt sich juristische Prüfung.