Welche Hardware brauche ich für ein 70B-Modell?

Als Richtwert rund 40–48 GB Speicher bei 4-Bit-Quantisierung (Faustregel: etwa 0,5–0,6 GB pro Milliarde Parameter plus Kontext). In der Praxis sind das zum Beispiel zwei RTX 3090 (48 GB zusammen), eine RTX PRO 6000 oder ein Mac Studio mit 64–128 GB.

Reicht mein Laptop für lokale KI?

Für Modelle bis etwa 8 Milliarden Parameter genügt oft ein aktueller Laptop mit 16 GB RAM. Ab rund 14B wird ein Gerät mit dedizierter GPU oder Apple Silicon mit viel Unified Memory empfehlenswert. (Richtwert)

Entscheidet die Grafikkarte oder der Speicher, ob ein Modell läuft?

Beides, aber getrennt: Der Speicher entscheidet, OB ein Modell überhaupt hineinpasst; die Speicherbandbreite entscheidet, WIE SCHNELL es antwortet. Token-Generierung ist fast immer bandbreiten-limitiert, nicht rechenleistungs-limitiert.

Was bringt Quantisierung?

Quantisierung wie Q4_K_M verkleinert ein Modell auf rund ein Viertel des Speichers bei nur geringem Qualitätsverlust. Deshalb ist 4-Bit der De-facto-Standard für den lokalen Betrieb.

Lokale KI · Hardware-Rechner

Welches lokale KI-Modell läuft auf deiner Hardware?

Der größte Stolperstein bei lokaler KI ist nicht die Installation, sondern die Frage: Welches Modell läuft auf meinem Gerät überhaupt gut? Wähle deine Hardware, wir empfehlen dir das beste Open-Source-Modell, das du betreiben kannst.

Lieber alle Modelle vergleichen? Zur Modell-Datenbank · Hintergrund im ausführlichen Leitfaden

Deine Hardware

Apple-Macs teilen sich den Speicher zwischen System und KI (Unified Memory). Bei dedizierten GPUs zählt nur der VRAM. Nutzbar bleibt jeweils etwas weniger als verbaut.

Empfehlung · ~11 GB nutzbar

Qwen3 14B

14B Parameter

Deutsch: stark~9 Tokens/s

Der Sweet-Spot: stark, vielseitig, läuft auf Mittelklasse-GPUs.

Speicher: ~11 GBQ4
Kontext: 32KTokens
Lizenz: Apache 2.0

Tokens/s ist ein grober Richtwert (Speicherbandbreite ÷ Modellgröße); reale Werte hängen von Quantisierung, Kontextlänge und Software ab.

ReasoningTool-Calling

Wenig Reserve für sehr lange Kontexte. Eine kleinere Quantisierung (z. B. Q4 statt Q5) oder das nächstkleinere Modell schafft Luft.

Läuft außerdem

Gemma 4 12B~9,5 GB
Phi-4 14B~11 GB
Gemma 3 12B~9,5 GB

Mit mehr Speicher

Mistral Small 3.1 24Bab ~16 GB
Gemma 3 27Bab ~18 GB

So startest du: Mit Ollama (ein Befehl) oder LM Studio (App) ist ein lokales Modell in wenigen Minuten geladen.

Mehr als nur das Modell? Corporate LLM macht ein Produktivsystem draus: RAG, Agenten-System, Skills und Connectoren.

Warum lokale KI?

Volle Datenhoheit

Prompts und Dokumente verlassen dein Gerät nie. DSGVO-konform ohne Cloud-Vertrauen.

Keine Token-Kosten

Einmal Hardware, danach unbegrenzte Nutzung. Keine Abrechnung pro Anfrage.

Offline & ohne Limits

Funktioniert ohne Internet, ohne Rate-Limits und ohne Anbieter-Ausfälle.

Häufige Fragen

Welche Hardware brauche ich für ein 70B-Modell?: Als Richtwert rund 40–48 GB Speicher bei 4-Bit-Quantisierung (Faustregel: etwa 0,5–0,6 GB pro Milliarde Parameter plus Kontext). In der Praxis sind das zum Beispiel zwei RTX 3090 (48 GB zusammen), eine RTX PRO 6000 oder ein Mac Studio mit 64–128 GB.
Reicht mein Laptop für lokale KI?: Für Modelle bis etwa 8 Milliarden Parameter genügt oft ein aktueller Laptop mit 16 GB RAM. Ab rund 14B wird ein Gerät mit dedizierter GPU oder Apple Silicon mit viel Unified Memory empfehlenswert. (Richtwert)
Entscheidet die Grafikkarte oder der Speicher, ob ein Modell läuft?: Beides, aber getrennt: Der Speicher entscheidet, OB ein Modell überhaupt hineinpasst; die Speicherbandbreite entscheidet, WIE SCHNELL es antwortet. Token-Generierung ist fast immer bandbreiten-limitiert, nicht rechenleistungs-limitiert.
Was bringt Quantisierung?: Quantisierung wie Q4_K_M verkleinert ein Modell auf rund ein Viertel des Speichers bei nur geringem Qualitätsverlust. Deshalb ist 4-Bit der De-facto-Standard für den lokalen Betrieb.

Mehr als nur das Modell

Lass dein Modell lokal laufen, Corporate LLM macht ein Produktivsystem draus: RAG, Agenten-System, Skills und Connectoren. 100% DSGVO-konform.

Kostenlos starten Modelle & Preise ansehen