- Startseite
- Lokale KI
Lokale KI · Hardware-Rechner
Welches lokale KI-Modell läuft auf deiner Hardware?
Der größte Stolperstein bei lokaler KI ist nicht die Installation, sondern die Frage: Welches Modell läuft auf meinem Gerät überhaupt gut? Wähle deine Hardware, wir empfehlen dir das beste Open-Source-Modell, das du betreiben kannst.
Lieber alle Modelle vergleichen? Zur Modell-Datenbank · Hintergrund im ausführlichen Leitfaden
Apple-Macs teilen sich den Speicher zwischen System und KI (Unified Memory). Bei dedizierten GPUs zählt nur der VRAM. Nutzbar bleibt jeweils etwas weniger als verbaut.
Qwen3 14B
14B ParameterDer Sweet-Spot: stark, vielseitig, läuft auf Mittelklasse-GPUs.
- Speicher
- ~11 GBQ4
- Kontext
- 32KTokens
- Lizenz
- Apache 2.0
Tokens/s ist ein grober Richtwert (Speicherbandbreite ÷ Modellgröße); reale Werte hängen von Quantisierung, Kontextlänge und Software ab.
Wenig Reserve für sehr lange Kontexte. Eine kleinere Quantisierung (z. B. Q4 statt Q5) oder das nächstkleinere Modell schafft Luft.
Läuft außerdem
- Gemma 4 12B~9,5 GB
- Phi-4 14B~11 GB
- Gemma 3 12B~9,5 GB
Mit mehr Speicher
- Mistral Small 3.1 24Bab ~16 GB
- Gemma 3 27Bab ~18 GB
So startest du: Mit Ollama (ein Befehl) oder LM Studio (App) ist ein lokales Modell in wenigen Minuten geladen.
Mehr als nur das Modell? Corporate LLM macht ein Produktivsystem draus: RAG, Agenten-System, Skills und Connectoren.
Warum lokale KI?
Volle Datenhoheit
Prompts und Dokumente verlassen dein Gerät nie. DSGVO-konform ohne Cloud-Vertrauen.
Keine Token-Kosten
Einmal Hardware, danach unbegrenzte Nutzung. Keine Abrechnung pro Anfrage.
Offline & ohne Limits
Funktioniert ohne Internet, ohne Rate-Limits und ohne Anbieter-Ausfälle.
Häufige Fragen
- Welche Hardware brauche ich für ein 70B-Modell?
- Als Richtwert rund 40–48 GB Speicher bei 4-Bit-Quantisierung (Faustregel: etwa 0,5–0,6 GB pro Milliarde Parameter plus Kontext). In der Praxis sind das zum Beispiel zwei RTX 3090 (48 GB zusammen), eine RTX PRO 6000 oder ein Mac Studio mit 64–128 GB.
- Reicht mein Laptop für lokale KI?
- Für Modelle bis etwa 8 Milliarden Parameter genügt oft ein aktueller Laptop mit 16 GB RAM. Ab rund 14B wird ein Gerät mit dedizierter GPU oder Apple Silicon mit viel Unified Memory empfehlenswert. (Richtwert)
- Entscheidet die Grafikkarte oder der Speicher, ob ein Modell läuft?
- Beides, aber getrennt: Der Speicher entscheidet, OB ein Modell überhaupt hineinpasst; die Speicherbandbreite entscheidet, WIE SCHNELL es antwortet. Token-Generierung ist fast immer bandbreiten-limitiert, nicht rechenleistungs-limitiert.
- Was bringt Quantisierung?
- Quantisierung wie Q4_K_M verkleinert ein Modell auf rund ein Viertel des Speichers bei nur geringem Qualitätsverlust. Deshalb ist 4-Bit der De-facto-Standard für den lokalen Betrieb.
Mehr als nur das Modell
Lass dein Modell lokal laufen, Corporate LLM macht ein Produktivsystem draus: RAG, Agenten-System, Skills und Connectoren. 100% DSGVO-konform.