GAllgemein

GPU Memory (VRAM) Anforderungen für LLMs

Speicherbedarf auf GPUs, der Modellgröße und Kontext bestimmt.

GPU Memory (VRAM) Anforderungen für LLMs beschreiben, wie viel Grafikspeicher benötigt wird, um ein Large Language Model (LLM) zu laden und effizient auszuführen. VRAM limitiert dabei vor allem Modellgröße (Parameter, Präzision/Quantisierung) und Kontextlänge (KV-Cache) – und beeinflusst damit, ob ein Modell lokal, on-prem oder nur über APIs sinnvoll betrieben werden kann.

Was bedeutet VRAM-Anforderung bei LLMs?

Die VRAM-Anforderung ist die Summe aus (1) Speicher für die Modellgewichte, (2) temporären Aktivierungen/Workspaces (je nach Engine), (3) dem KV-Cache (Key-Value Cache) für das Kontextfenster sowie (4) Overhead durch Framework/Runtime (z. B. CUDA, Kernel, Speicherfragmentierung). In der Praxis ist VRAM oft der Engpass – noch vor reiner Rechenleistung.

Wie funktioniert die VRAM-Berechnung (Daumenregeln)?

Modellgewichte: grob Parameter × Bytes pro Parameter. FP16/BF16 ≈ 2 Bytes, INT8 ≈ 1 Byte, 4-bit ≈ 0,5 Byte (plus etwas Overhead durch Quantisierungs-Metadaten).
KV-Cache (Kontext): wächst mit Token-Anzahl und ist ein Haupttreiber bei langen Kontexten. Je größer das Kontextfenster (Context Window), desto mehr VRAM wird pro paralleler Anfrage reserviert.
Batching & Parallelität: Mehr gleichzeitige Nutzer/Requests erhöhen KV-Cache und Workspaces. Das ist zentral für Latency (Latenz) & Throughput-Optimierung.

Konkrete Beispiele (vereinfacht)

7B-Modell: FP16 ca. 14–16 GB VRAM nur für Gewichte; mit KV-Cache und Overhead sind 16–24 GB für komfortable Inferenz üblich. Mit Quantization (Quantisierung) (z. B. 4-bit) kann es oft in 6–10 GB laufen.
13B-Modell: FP16 ca. 26–30 GB (Gewichte) → häufig 32–48 GB sinnvoll; 4-bit oft 10–16 GB.
70B-Modell: FP16 deutlich > 140 GB nur Gewichte → meist Multi-GPU oder stark quantisiert; 4-bit kann grob im Bereich 35–50 GB liegen (je nach Implementierung), plus KV-Cache.

Wichtig: Diese Werte sind Näherungen. Engines wie Inference-Server (vLLM / TGI / Triton) oder Optimierungen (Paged Attention, FlashAttention, TensorRT) können den KV-Cache effizienter machen, aber die Größenordnung bleibt.

Warum sind VRAM-Anforderungen wichtig?

Modellauswahl: VRAM entscheidet, ob ein Modell lokal (z. B. Ollama oder Llama.cpp) läuft oder ob man auf Cloud/APIs ausweichen muss.
Kontext & RAG: Längere Prompts, RAG (Retrieval-Augmented Generation) oder Agenten mit Tools erhöhen Kontext und damit KV-Cache. Alternativ kann man Kontext reduzieren (Chunking, Retrieval, Prompt Compression (Prompt-Kompression)) statt VRAM „zu kaufen“.
Kosten & Betrieb: Mehr VRAM bedeutet teurere GPUs und beeinflusst TCO. Das spielt in Total Cost of Ownership (TCO) für LLMs und Cost Optimization (Token-Kostenoptimierung) hinein.

Typische Stellhebel, um VRAM zu sparen

Quantisierung: 8-bit/4-bit senkt Gewichtspeicher stark (Trade-off: Qualität/Speed je nach Setup).
Kontext-Strategien: kleineres Kontextfenster, Token (Tokens) & Tokenisierung (Tokenization)-Budgeting, Retrieval statt „alles in den Prompt“.
Serving-Optimierung: vLLM/Paged Attention, effizientes Batching, KV-Cache-Management, ggf. Multi-GPU-Sharding.

In Summe gilt: VRAM bestimmt, welches LLM du einsetzen kannst, wie lang der Kontext sein darf und wie viele parallele Nutzer du bedienen kannst – und ist damit ein Kernkriterium für Architekturentscheidungen in produktiven KI-Systemen.

← Zurück zur Übersicht