SAllgemein

SLM (Small Language Model)

Kleines Sprachmodell für kostengünstige, schnelle und oft On-Device/On-Prem Nutzung.

SLM (Small Language Model) bezeichnet ein kleines Sprachmodell, das natürliche Sprache versteht und generiert, aber deutlich weniger Parameter und Rechenbedarf als ein Large Language Model (LLM) hat. Dadurch ist ein SLM meist günstiger, schneller (geringere Latenz) und eignet sich besonders für On-Device- oder On-Premises-Szenarien, in denen Datenschutz, Kostenkontrolle und kurze Antwortzeiten wichtig sind.

Was bedeutet SLM genau?

„Small“ bezieht sich auf die Modellgröße (z. B. weniger Parameter, kleinerer Speicherbedarf) und damit auf den geringeren Bedarf an GPU/CPU-Ressourcen. In der Praxis werden SLMs häufig so optimiert, dass sie mit Techniken wie Quantization (Quantisierung) oder Distillation (Wissensdistillation) auf Standard-Hardware laufen können – etwa auf einem Laptop, einem Smartphone oder einem Server ohne High-End-GPU.

Wie funktioniert ein SLM?

Grundsätzlich arbeitet ein SLM wie andere Sprachmodelle: Es sagt Token für Token die wahrscheinlichste Fortsetzung voraus (siehe Token (Tokens) & Tokenisierung (Tokenization)). Der Unterschied ist, dass es weniger „Wissen“ und weniger Kapazität für komplexes Reasoning mitbringt, dafür aber effizienter ist.

Wofür nutzt man SLMs? (Typische Use Cases)

SLM vs. LLM: Vorteile und Grenzen

  • Vorteile: Niedrigere Kosten pro Anfrage, geringere Latenz, einfacher On-Prem/Edge-Betrieb, besseres Kosten- und Kapazitätsmanagement (siehe Cost Optimization (Token-Kostenoptimierung)).
  • Grenzen: Häufig schwächer bei komplexem Schlussfolgern, langen Kontexten und sehr breitem Weltwissen; kann bei schwierigen Aufgaben eher zu Fehlern oder Halluzinationen (Hallucinations) neigen, wenn kein gutes Grounding vorhanden ist.

Best Practices: So holst du mehr aus einem SLM heraus

Unterm Strich sind SLMs ideal, wenn du viele Anfragen effizient verarbeiten willst, geringe Latenz brauchst oder Daten lokal halten musst – und die Aufgaben eher fokussiert, strukturiert und gut „eingrenzbar“ sind.