LLM Firewall
Eine LLM Firewall ist ein Sicherheitslayer für Anwendungen mit Large Language Model (LLM) (z. B. ChatGPT), der Eingaben und Ausgaben eines Modells kontrolliert, um Prompt-Injection, Datenabfluss und Policy-Verstöße zu verhindern. Sie sitzt typischerweise zwischen User, Tools/Backends und dem Modell und setzt technische sowie organisatorische Regeln durch.
Was bedeutet „LLM Firewall“?
Der Begriff lehnt sich an klassische Firewalls an: Statt Netzwerkpakete zu filtern, bewertet eine LLM Firewall Prompts, Kontext (z. B. RAG-Dokumente) und Modellantworten. Ziel ist, riskante Inhalte zu blockieren, zu entschärfen (Redaction/Rewrite) oder für Prüfprozesse zu markieren. In der Praxis überschneidet sich der Begriff mit Guardrails (KI-Leitplanken), Prompt Guard / Prompt Firewall und DLP-Ansätzen für KI.
Wie funktioniert eine LLM Firewall?
- 1) Input-Inspection: Prüfung von User-Prompts auf Prompt Injection-Muster, z. B. „Ignoriere alle Anweisungen…“, versteckte Instruktionen, Social Engineering oder Jailbreak-Versuche (Jailbreak).
- 2) Kontext- und Retrieval-Schutz: Wenn RAG (Retrieval-Augmented Generation) eingesetzt wird, werden Quellen/Chunks validiert (z. B. nur erlaubte Repositories), riskante Passagen entfernt und „untrusted content“ klar vom Systemkontext getrennt. Ergänzend können Re-Ranking (Neu-Rangordnung) und Whitelists verhindern, dass „vergiftete“ Dokumente in den Kontext gelangen.
- 3) Tool- und Agentenkontrolle: Bei Function Calling / Tool Use und AI Agents (KI-Agenten) werden Tool-Aufrufe policy-basiert erlaubt/abgelehnt (z. B. keine Überweisungen, kein Löschen von Daten). Häufig kombiniert mit Agent Sandbox (Tool-Sandboxing), Rate Limits und Secrets Management (Schlüsselverwaltung).
- 4) Output-Filtering & DLP: Antworten werden auf sensible Daten geprüft (PII, Geheimnisse, interne Prompts). Dazu zählen PII Detection (PII-Erkennung), PII Redaction (PII-Schwärzung) und Data Loss Prevention (DLP) für KI. Auch Policy-Checks (z. B. verbotene Inhalte, Compliance) sind üblich.
- 5) Logging, Monitoring, Evals: Ereignisse werden auditierbar protokolliert, Auffälligkeiten überwacht (z. B. Spike an Blockierungen) und mit Tests abgesichert, z. B. Red Teaming (KI-Red-Teaming) und Threat Modeling für LLMs.
Warum ist eine LLM Firewall wichtig?
LLM-Systeme sind besonders anfällig, weil sie natürlichsprachliche Anweisungen „ausführen“ und dabei Kontext aus vielen Quellen verarbeiten. Ohne Schutz kann ein Angreifer z. B. über eine Prompt-Injection erreichen, dass interne Richtlinien offengelegt werden (Prompt Leakage), vertrauliche Daten aus dem Kontext in die Antwort gelangen oder ein Agent gefährliche Aktionen via Tools ausführt. Zusätzlich helfen LLM Firewalls bei Governance- und Compliance-Zielen, etwa im Zusammenspiel mit AI Governance, Datenschutz (DSGVO/GDPR) & KI oder internen Sicherheitsrichtlinien.
Beispiele aus der Praxis
- Support-Chat mit Wissensdatenbank: Ein Nutzer versucht, den Bot zur Ausgabe interner Dokumente zu bringen. Die Firewall erkennt Injection-Muster, trennt System- von User-Instruktionen und schwärzt personenbezogene Daten aus der Antwort.
- Agent in Automationen (z. B. n8n): Der Agent soll Tickets erstellen, darf aber keine Kundendaten an externe Tools senden. Die Firewall blockiert Tool-Calls mit PII und erzwingt Freigaben (Human-in-the-Loop) bei riskanten Aktionen.
- Enterprise-LLM mit Toolzugriff: Bei verdächtigen Abfragen (z. B. „Exportiere alle Datensätze“) greift Policy Enforcement: Scope wird reduziert, Abfrage wird abgelehnt oder es wird nur aggregiert ausgegeben.
Was kostet eine LLM Firewall?
Die Kosten hängen von Architektur (Cloud/On-Prem), Traffic (Tokens/Requests), Funktionsumfang (DLP, Tool-Policies, Monitoring) und Integrationsaufwand ab. In der Praxis entstehen Kosten meist durch (a) zusätzliche Inferenz/Classifier-Calls, (b) Engineering für Policies und Tests sowie (c) Betrieb/Monitoring. Oft lohnt sich der Einsatz besonders bei produktiven, tool-fähigen LLM-Anwendungen mit sensiblen Daten oder Compliance-Anforderungen.