SAllgemein

SLM (Small Language Model)

Kleines Sprachmodell für kostengünstige, schnelle und oft On-Device/On-Prem Nutzung.

SLM (Small Language Model) bezeichnet ein kleines Sprachmodell, das natürliche Sprache versteht und generiert, aber deutlich weniger Parameter und Rechenbedarf als ein Large Language Model (LLM) hat. Dadurch ist ein SLM meist günstiger, schneller (geringere Latenz) und eignet sich besonders für On-Device- oder On-Premises-Szenarien, in denen Datenschutz, Kostenkontrolle und kurze Antwortzeiten wichtig sind.

Was bedeutet SLM genau?

„Small“ bezieht sich auf die Modellgröße (z. B. weniger Parameter, kleinerer Speicherbedarf) und damit auf den geringeren Bedarf an GPU/CPU-Ressourcen. In der Praxis werden SLMs häufig so optimiert, dass sie mit Techniken wie Quantization (Quantisierung) oder Distillation (Wissensdistillation) auf Standard-Hardware laufen können – etwa auf einem Laptop, einem Smartphone oder einem Server ohne High-End-GPU.

Wie funktioniert ein SLM?

Grundsätzlich arbeitet ein SLM wie andere Sprachmodelle: Es sagt Token für Token die wahrscheinlichste Fortsetzung voraus (siehe Token (Tokens) & Tokenisierung (Tokenization)). Der Unterschied ist, dass es weniger „Wissen“ und weniger Kapazität für komplexes Reasoning mitbringt, dafür aber effizienter ist.

Eingabe: Prompt/Anweisung, ggf. mit Beispielen (siehe Prompt Engineering und Few-Shot Learning (Wenige-Beispiele-Lernen)).
Inferenz: Das Modell berechnet die nächste Token-Sequenz (siehe Inference (Inference) sowie Latency (Latenz) & Throughput).
Ausgabe: Text (oder strukturierte Antworten via Structured Outputs (JSON Schema) bzw. JSON Mode (Strict JSON Output)) – oft mit klaren Grenzen beim Kontextumfang (siehe Kontextfenster (Context Window)).

Wofür nutzt man SLMs? (Typische Use Cases)

On-Device Assistenz: Autovervollständigung, Offline-Chat, Zusammenfassungen auf dem Gerät (siehe On-Device AI (Edge AI))
Unternehmensinterne Automatisierung: Klassifikation von Tickets, E-Mail-Entwürfe, Datenextraktion aus Formularen – z. B. in Workflows mit n8n und Automatisierung (Automation).
Tool-Nutzung im Kleinen: Für einfache Agenten-Tasks mit Function Calling / Tool Use (z. B. „Suche Kundendaten, erstelle Antwortvorlage“), wenn die Aufgaben klar strukturiert sind.
Datenschutz- und Compliance-Szenarien: Wenn Daten das Unternehmen nicht verlassen dürfen (siehe Datenschutz (DSGVO/GDPR) & KI und Data Residency (Datenresidenz)).

SLM vs. LLM: Vorteile und Grenzen

Vorteile: Niedrigere Kosten pro Anfrage, geringere Latenz, einfacher On-Prem/Edge-Betrieb, besseres Kosten- und Kapazitätsmanagement (siehe Cost Optimization (Token-Kostenoptimierung)).
Grenzen: Häufig schwächer bei komplexem Schlussfolgern, langen Kontexten und sehr breitem Weltwissen; kann bei schwierigen Aufgaben eher zu Fehlern oder Halluzinationen (Hallucinations) neigen, wenn kein gutes Grounding vorhanden ist.

Best Practices: So holst du mehr aus einem SLM heraus

RAG statt „alles im Modell“: Kombiniere SLM + RAG (Retrieval-Augmented Generation) mit Embeddings und Vektordatenbank (Vector Database), um aktuelles Unternehmenswissen nachzuladen.
Feintuning für Spezialfälle: Nutze Fine-Tuning oder LoRA für domänenspezifische Sprache (z. B. Support-Tonality, Produktkataloge).
Guardrails & Struktur: Arbeite mit klaren Output-Schemata und Leitplanken (siehe Guardrails (KI-Leitplanken)) – besonders bei Automations.

Unterm Strich sind SLMs ideal, wenn du viele Anfragen effizient verarbeiten willst, geringe Latenz brauchst oder Daten lokal halten musst – und die Aufgaben eher fokussiert, strukturiert und gut „eingrenzbar“ sind.

← Zurück zur Übersicht