Wenn Sie DeepSeek V4 Flash lokal betreiben wollen, liefert ds4 (DwarfStar 4) von Redis-Autor Salvatore Sanfilippo die Antwort auf der Software-Seite: eine 18.404-Zeilen-C-Engine nur fuer dieses Modell, 11.185+ GitHub-Stars, Metal-First, asymmetrische 2-bit-Quantisierung (IQ2_XXS auf gerouteten MoE-Experten), Disk-KV unter --kv-disk-dir, eingebauter ds4-server mit OpenAI/Anthropic-HTTP. Die Hardware-Schranke bleibt: q2 ab 96-128GB Unified Memory (GGUF 80,8 GiB), q4 ab 256GB (153,3 GiB), Pro ab 512GB — Mac Studio M3 Ultra Top-Spec oft 7.000-14.500 EUR Capex. Dieser Artikel verbindet Wenn/Dann-Gates, Spezifikationstabellen ds4 vs. llama.cpp vs. MLX, offizielle README-Benchmarks (250,11 / 468,03 t/s prefill), eine 3-Jahres-TCO Kauf vs. Miete und sieben reproduzierbare Schritte bis zur Cursor-Anbindung — ohne sofort 14.500 EUR zu binden. Datenschutz-relevant: Inferenz auf Ihrer dedizierten Instanz, ohne Prompt-Leaks an Cloud-APIs (DSGVO bei personenbezogenen Daten in Prompts).
Die ds4-Erfahrung wird in unabhaengigen Tests als „Frontier-nah“ beschrieben. Ob es auf Ihrem Mac laeuft, ist eine andere Frage. Fuenf harte Gates blockieren die meisten Versuche — hier in Wenn/Dann-Form mit Spezifikationsbezug:
antirez/deepseek-v4-gguf mit asymmetrischer IQ2_XXS+Q2_K-Quantisierung auf gerouteten MoE-Experten.Fazit: ds4 hat die Software-Mauer entfernt, die Hardware-Mauer bleibt — und sie ist hoeher als viele erwarten.
Der Vergleich dreht sich um Single-Model-Fokus. llama.cpp muss hunderte Architekturen abdecken; MLX ist Apples generischer ML-Stack fuer Forschung. ds4 buendelt Metal-Graph, MoE-KV-Verwaltung, Disk-Persistenz, Prompt-Rendering und Tool-Calls in eine Engine — der Preis: wenn V4 Flash durch eine neue Generation ersetzt wird, muss ein grosser Teil des Codes neu kalibriert werden. Der Gewinn: auf 128GB Mac ist das heute der kuerzeste Pfad zu nutzbarem V4 Flash mit OpenAI-kompatiblem Endpoint fuer Cursor und Agent-Frameworks.
Lesen Sie die Tabelle mit der Frage: nur V4 Flash + maximale Geschwindigkeit oder Rotation mehrerer Open-Weight-Modelle? Ersteres → ds4. Letzteres → llama.cpp zusaetzlich auf demselben Remote-Mac.
| Parameter | ds4 | llama.cpp | MLX |
|---|---|---|---|
| Modelle | nur V4 Flash GGUF | hunderte Architekturen | meiste Mainstream-Modelle |
| Backend | Metal (+CUDA Linux), CPU verboten | CPU/CUDA/Metal/Vulkan | Metal nativ |
| 2-bit | asymmetrisch IQ2_XXS+Q2_K | symmetrisch IQ2/IQ3/Q4 | 4/8-bit |
| Disk-KV | --kv-disk-dir nativ | extern | nein |
| 1M Context | nativ | mit Tuning | modellabhaengig |
| OpenAI/Anthropic API | ds4-server eingebaut | Wrapper noetig | Wrapper noetig |
| V4 Flash Speed | Top auf Mac | ok, nicht optimal | nicht getunt |
Wenn nur V4 Flash und maximale Geschwindigkeit → ds4. Wenn Modell-Mix (Llama, Qwen, Mistral) → llama.cpp parallel. Wenn Forschung → MLX. Viele Teams: ds4 + llama.cpp auf demselben Remote-Mac.
Die Wahl beginnt mit Unified Memory, nicht mit der t/s-Zahl im Banner. Alle Durchsatzwerte stammen aus dem ds4 README (MacBook Pro M3 Max 128GB, Mac Studio M3 Ultra 512GB, feste Token-Laengen). Preise: Apple DE Store Mai 2026, Top-Konfigurationen — als Orientierung fuer Capex vs. Miete.
| Tier | Min. RAM | Mac | Preis (EUR) | Prefill | Generation |
|---|---|---|---|---|---|
| V4 Flash q2 | 96GB (128 empfohlen) | MacBook Pro M3/M4/M5 Max 128GB | 4.000-5.500 | 250,11 t/s (11.709 Token) | 21,47 t/s |
| V4 Flash q4 | 256GB+ | Mac Studio M3 Ultra | 7.000-14.500 | 448,82 t/s (12.018 Token) | 26,62 t/s |
| q2 Ultra | 512GB empfohlen | Studio Ultra 512GB | 14.500+ | 468,03 t/s | 27,39 t/s |
| V4 Pro | 512GB | — | — | kein ds4-Pfad | Multi-H100/H200 |
Hinweis: Ultra 512GB: q2 = Speed, q4 = Qualitaet. MacBook Pro max. 128GB → nur q2.
Praxis-Empfehlung: Solo-Entwickler oder Agent-POC → 128GB q2 (Miete oder Pro 128GB). Team mit langem Kontext und hoeherer Qualitaet → 256GB+ q4 auf Studio Ultra. Maximaler Durchsatz fuer Agent-Schwaerme → 512GB q2 Ultra. V4 Pro ist ausserhalb ds4 — Multi-GPU-Cluster. Vor Capex: Stundenmiete auf MACCOME Mietpreisen und q2 mit Cursor testen.
Auf x86 mit diskreter GPU begrenzt VRAM die Modellgroesse. 80GB-Modelle erfordern H200 oder Multi-GPU-Setups. Apple Silicon teilt einen Speicherpool zwischen CPU und GPU — kein PCIe-Roundtrip. Das ist der strukturelle Grund, warum die lokale Frontier-Welle 2026 auf dem Mac stattfindet.
--kv-disk-dir fuer session-uebergreifende Kontexte.Hoher-Speicher-Mac = derzeit fast die einzige Consumer-Klasse, die gleichzeitig „passt rein“, „laeuft stabil“ und „Preis ist tragbar“ liefert. Deshalb konzentriert sich die lokale Frontier-Welle 2026 strukturell auf Apple Silicon — nicht wegen Marketing, sondern wegen UMA und Bandbreite.
git clone https://github.com/antirez/ds4 && cd ds4 && make. Nicht make cpu. Erwartung: ./ds4-server vorhanden../download_model.sh q2|q4 von antirez/deepseek-v4-gguf (Resume mit curl -C -)../ds4-server --ctx 100000 --kv-disk-dir /tmp/ds4-kv --kv-disk-space-mb 8192 — nicht sofort 1M Context.curl http://localhost:8080/v1/models zeigt deepseek-v4-flash.http://host:8080/v1, Modell deepseek-v4-flash.ssh -L 8080:localhost:8080 user@mac-host — SSH Runbook.git clone https://github.com/antirez/ds4 cd ds4 && ./download_model.sh q2 && make ./ds4-server --ctx 100000 --kv-disk-dir /tmp/ds4-kv --kv-disk-space-mb 8192 ssh -L 8080:localhost:8080 dev@mac-rental.example.com
Vergleich Mac Studio Ultra 512GB (Kauf, 50% Restwert nach 3 Jahren) vs. MACCOME-Miete laut Mietpreisen. Strom und Betrieb nicht im Kauf enthalten.
| Option | Capex | 3 Jahre | Restwert | Netto 3J | Flexibilitaet |
|---|---|---|---|---|---|
| Kauf Ultra 256GB | 7.000 EUR | 7.000 | +3.500 | ~3.500 EUR | kein Tier-Wechsel |
| Kauf Ultra 512GB | 14.500 EUR | 14.500 | +7.250 | ~7.250 EUR | kein Tier-Wechsel |
| MACCOME 128GB Monat | 0 | 36× Monatspreis | — | typ. 30-50% Kauf | 256/512GB wechseln |
| Stundenmiete POC | 0 | nur Nutzung | — | sehr niedrig | maximal |
Bei eigenem Ultra-Kauf sind die echten Kosten oft „14.500 EUR Capex + Modellgenerations-Risiko + SSD-TBW auf eigener Hardware“. Miete verschiebt diese drei Posten auf die Plattform. Ohne 18+ Monate 24/7-Vollast gewinnt die Miete haeufig rechnerisch. Siehe Mac mini Kauf-vs-Miete, Multi-Region, OpenRouter-Routing.
antirez hat mit ds4 gezeigt: DeepSeek V4 Flash lokal ist softwareseitig machbar — 18.404 Zeilen C, Metal-Graph, Disk-KV, OpenAI/Anthropic-API, Coding-Agent. Die echte Barriere ist 96–512GB Unified Memory, nicht der Code.
„Ultra kaufen und ds4 betreiben“ hat drei versteckte Fallen: (a) 7.000–14.500 EUR Capex und schneller Restwertverlust bei Modellwechseln; (b) SSD-TBW bei 1M-Context-Sessions ueber drei Jahre; (c) keine Tier-Elastizitaet — q2 heute, q4 morgen erfordert neues Geraet. Fuer produktive AI-Agent-Umgebungen mit Verfuegbarkeit und Datenschutz (Inferenz auf dedizierter Instanz, DSGVO bei personenbezogenen Prompts) ist MACCOME Remote-Mac 128/256/512GB auf Monats- oder Stundenbasis oft die stabilere Variante — Capex wird OpEx, Restwert- und SSD-Risiko liegen bei der Plattform, Teams teilen dieselbe Ultra fuer Experimente.
Regionen und Latenz: Multi-Region-Guide. Cloud-API plus lokal: OpenRouter-Routing.
FAQ
Kann ds4 DeepSeek V4 Pro ausfuehren?
Nein — nur Flash-GGUF aus antirez/deepseek-v4-gguf. V4 Pro braucht 512GB Unified Memory oder Multi-H100/H200. q2 vor Kauf testen: Bestellseite (Stundenmiete).
Ist q2-Qualitaet spuerbar schlechter?
q2 in ds4 ist asymmetrisch: nur geroutete MoE-Experten IQ2_XXS+Q2_K, Rest Q8/F16. Bei Code und Tool-Calling nahe Frontier-APIs; fuer Mathe/Multimodal q4 ab 256GB.
Latenz bei Remote-Mac und Cursor?
Mit ssh -L oder Tailscale, gleiche Region: RTT 5-30ms, Streaming kaum spuerbar. Cross-Region ca. 150ms First-Token. Hilfe-Center.
Warum nicht llama.cpp oder MLX?
V4 Flash allein und maximale Geschwindigkeit auf Mac → ds4. Mehrere Modelle → llama.cpp parallel; siehe OpenRouter-Routing fuer API+local.