2026 DeepSeek V4 Flash lokal auf dem Mac: antirez ds4, 96-512GB Unified Memory und Kauf-vs-Cloud-Miete-Entscheidungstabelle

ca. 18 Min. Lesezeit · MACCOME

Wenn Sie DeepSeek V4 Flash lokal betreiben wollen, liefert ds4 (DwarfStar 4) von Redis-Autor Salvatore Sanfilippo die Antwort auf der Software-Seite: eine 18.404-Zeilen-C-Engine nur fuer dieses Modell, 11.185+ GitHub-Stars, Metal-First, asymmetrische 2-bit-Quantisierung (IQ2_XXS auf gerouteten MoE-Experten), Disk-KV unter --kv-disk-dir, eingebauter ds4-server mit OpenAI/Anthropic-HTTP. Die Hardware-Schranke bleibt: q2 ab 96-128GB Unified Memory (GGUF 80,8 GiB), q4 ab 256GB (153,3 GiB), Pro ab 512GB — Mac Studio M3 Ultra Top-Spec oft 7.000-14.500 EUR Capex. Dieser Artikel verbindet Wenn/Dann-Gates, Spezifikationstabellen ds4 vs. llama.cpp vs. MLX, offizielle README-Benchmarks (250,11 / 468,03 t/s prefill), eine 3-Jahres-TCO Kauf vs. Miete und sieben reproduzierbare Schritte bis zur Cursor-Anbindung — ohne sofort 14.500 EUR zu binden. Datenschutz-relevant: Inferenz auf Ihrer dedizierten Instanz, ohne Prompt-Leaks an Cloud-APIs (DSGVO bei personenbezogenen Daten in Prompts).

Fuenf Hardware-Gates (Wenn/Dann-Logik)

Die ds4-Erfahrung wird in unabhaengigen Tests als „Frontier-nah“ beschrieben. Ob es auf Ihrem Mac laeuft, ist eine andere Frage. Fuenf harte Gates blockieren die meisten Versuche — hier in Wenn/Dann-Form mit Spezifikationsbezug:

  1. Wenn Unified Memory unter 96GB liegt, dann ist q2 praktisch unbrauchbar: das GGUF allein ist 80,8 GiB, dazu KV und Runtime. 128GB ist der erste komfortable Bereich; 64GB fuehrt zu aggressivem Swap.
  2. Wenn kein Apple Silicon vorhanden ist, dann scheitert ds4: der CPU-Pfad kann laut README den macOS-Kernel crashen — kein „langsamer“, sondern kein Start.
  3. Wenn ein generisches V4-GGUF von Hugging Face verwendet wird, dann laedt ds4 nicht: nur antirez/deepseek-v4-gguf mit asymmetrischer IQ2_XXS+Q2_K-Quantisierung auf gerouteten MoE-Experten.
  4. Wenn 1M-Context mit Disk-KV 24/7 laeuft, dann steigt das SSD-TBW-Risiko innerhalb von drei Jahren realistisch an.
  5. Wenn ein Mac Studio Ultra 512GB gekauft wird, dann traegt das Team allein Capex, Restwertverlust bei Modellgenerationen und keine Tier-Flexibilitaet (q2 heute, q4 morgen = neues Geraet).

Fazit: ds4 hat die Software-Mauer entfernt, die Hardware-Mauer bleibt — und sie ist hoeher als viele erwarten.

ds4 vs. llama.cpp vs. MLX (Spezifikation)

Der Vergleich dreht sich um Single-Model-Fokus. llama.cpp muss hunderte Architekturen abdecken; MLX ist Apples generischer ML-Stack fuer Forschung. ds4 buendelt Metal-Graph, MoE-KV-Verwaltung, Disk-Persistenz, Prompt-Rendering und Tool-Calls in eine Engine — der Preis: wenn V4 Flash durch eine neue Generation ersetzt wird, muss ein grosser Teil des Codes neu kalibriert werden. Der Gewinn: auf 128GB Mac ist das heute der kuerzeste Pfad zu nutzbarem V4 Flash mit OpenAI-kompatiblem Endpoint fuer Cursor und Agent-Frameworks.

Lesen Sie die Tabelle mit der Frage: nur V4 Flash + maximale Geschwindigkeit oder Rotation mehrerer Open-Weight-Modelle? Ersteres → ds4. Letzteres → llama.cpp zusaetzlich auf demselben Remote-Mac.

Parameterds4llama.cppMLX
Modellenur V4 Flash GGUFhunderte Architekturenmeiste Mainstream-Modelle
BackendMetal (+CUDA Linux), CPU verbotenCPU/CUDA/Metal/VulkanMetal nativ
2-bitasymmetrisch IQ2_XXS+Q2_Ksymmetrisch IQ2/IQ3/Q44/8-bit
Disk-KV--kv-disk-dir nativexternnein
1M Contextnativmit Tuningmodellabhaengig
OpenAI/Anthropic APIds4-server eingebautWrapper noetigWrapper noetig
V4 Flash SpeedTop auf Macok, nicht optimalnicht getunt

Wenn nur V4 Flash und maximale Geschwindigkeit → ds4. Wenn Modell-Mix (Llama, Qwen, Mistral) → llama.cpp parallel. Wenn Forschung → MLX. Viele Teams: ds4 + llama.cpp auf demselben Remote-Mac.

Hardware-Spezifikation: q2 / q4 / Pro

Die Wahl beginnt mit Unified Memory, nicht mit der t/s-Zahl im Banner. Alle Durchsatzwerte stammen aus dem ds4 README (MacBook Pro M3 Max 128GB, Mac Studio M3 Ultra 512GB, feste Token-Laengen). Preise: Apple DE Store Mai 2026, Top-Konfigurationen — als Orientierung fuer Capex vs. Miete.

TierMin. RAMMacPreis (EUR)PrefillGeneration
V4 Flash q296GB (128 empfohlen)MacBook Pro M3/M4/M5 Max 128GB4.000-5.500250,11 t/s (11.709 Token)21,47 t/s
V4 Flash q4256GB+Mac Studio M3 Ultra7.000-14.500448,82 t/s (12.018 Token)26,62 t/s
q2 Ultra512GB empfohlenStudio Ultra 512GB14.500+468,03 t/s27,39 t/s
V4 Pro512GBkein ds4-PfadMulti-H100/H200
warning

Hinweis: Ultra 512GB: q2 = Speed, q4 = Qualitaet. MacBook Pro max. 128GB → nur q2.

Praxis-Empfehlung: Solo-Entwickler oder Agent-POC → 128GB q2 (Miete oder Pro 128GB). Team mit langem Kontext und hoeherer Qualitaet → 256GB+ q4 auf Studio Ultra. Maximaler Durchsatz fuer Agent-Schwaerme → 512GB q2 Ultra. V4 Pro ist ausserhalb ds4 — Multi-GPU-Cluster. Vor Capex: Stundenmiete auf MACCOME Mietpreisen und q2 mit Cursor testen.

Warum Mac: UMA und Speicherbandbreite

Auf x86 mit diskreter GPU begrenzt VRAM die Modellgroesse. 80GB-Modelle erfordern H200 oder Multi-GPU-Setups. Apple Silicon teilt einen Speicherpool zwischen CPU und GPU — kein PCIe-Roundtrip. Das ist der strukturelle Grund, warum die lokale Frontier-Welle 2026 auf dem Mac stattfindet.

  • UMA: Ein M3 Max mit 128GB laedt das 80,8GiB q2-GGUF plus KV ohne Kopien zwischen CPU- und GPU-Speicher.
  • Bandbreite: Sparse MoE (284B total, 13B aktiv pro Token); M3 Ultra ~800GB/s kombiniert mit IQ2_XXS auf gerouteten Experten.
  • NVMe: Interne SSDs mit 5-6GB/s passen zum Disk-KV-Protokoll --kv-disk-dir fuer session-uebergreifende Kontexte.

Hoher-Speicher-Mac = derzeit fast die einzige Consumer-Klasse, die gleichzeitig „passt rein“, „laeuft stabil“ und „Preis ist tragbar“ liefert. Deshalb konzentriert sich die lokale Frontier-Welle 2026 strukturell auf Apple Silicon — nicht wegen Marketing, sondern wegen UMA und Bandbreite.

Sieben reproduzierbare Schritte bis Cursor

  1. Tier waehlen: 96-128GB → q2; 256GB+ → q4; MacBook Pro nur q2.
  2. Build: git clone https://github.com/antirez/ds4 && cd ds4 && make. Nicht make cpu. Erwartung: ./ds4-server vorhanden.
  3. Modell: ./download_model.sh q2|q4 von antirez/deepseek-v4-gguf (Resume mit curl -C -).
  4. Server: ./ds4-server --ctx 100000 --kv-disk-dir /tmp/ds4-kv --kv-disk-space-mb 8192 — nicht sofort 1M Context.
  5. Pruefen: curl http://localhost:8080/v1/models zeigt deepseek-v4-flash.
  6. Cursor: OpenAI-kompatibel http://host:8080/v1, Modell deepseek-v4-flash.
  7. Remote-Mac: ssh -L 8080:localhost:8080 user@mac-hostSSH Runbook.
bash
git clone https://github.com/antirez/ds4
cd ds4 && ./download_model.sh q2 && make
./ds4-server --ctx 100000 --kv-disk-dir /tmp/ds4-kv --kv-disk-space-mb 8192
ssh -L 8080:localhost:8080 dev@mac-rental.example.com

Drei verifizierbare Datenpunkte (README + Hugging Face)

  • Modell: DeepSeek V4 Flash — 284B gesamt, 13B aktiv pro Token, 1M Context, FP4+FP8 Mixed. Eines der groessten Open-Weight-Modelle, die 2026 realistisch auf ≤512GB Mac laufen.
  • Durchsatz (offiziell, ds4 README): M3 Max 128GB q2, 11.709 Token: prefill 250,11 t/s, gen 21,47 t/s; M3 Ultra 512GB q2 gleiche Laenge: 468,03 / 27,39 t/s; q4 Ultra 12.018 Token: 448,82 / 26,62 t/s.
  • GGUF auf Disk: q2 80,8 GiB (routed experts IQ2_XXS+Q2_K, attn/shared Q8, router/embed Q16/F32); q4 153,3 GiB; MTP optional 3,6 GiB.

3-Jahres-TCO: Kauf vs. Miete

Vergleich Mac Studio Ultra 512GB (Kauf, 50% Restwert nach 3 Jahren) vs. MACCOME-Miete laut Mietpreisen. Strom und Betrieb nicht im Kauf enthalten.

OptionCapex3 JahreRestwertNetto 3JFlexibilitaet
Kauf Ultra 256GB7.000 EUR7.000+3.500~3.500 EURkein Tier-Wechsel
Kauf Ultra 512GB14.500 EUR14.500+7.250~7.250 EURkein Tier-Wechsel
MACCOME 128GB Monat036× Monatspreistyp. 30-50% Kauf256/512GB wechseln
Stundenmiete POC0nur Nutzungsehr niedrigmaximal

Bei eigenem Ultra-Kauf sind die echten Kosten oft „14.500 EUR Capex + Modellgenerations-Risiko + SSD-TBW auf eigener Hardware“. Miete verschiebt diese drei Posten auf die Plattform. Ohne 18+ Monate 24/7-Vollast gewinnt die Miete haeufig rechnerisch. Siehe Mac mini Kauf-vs-Miete, Multi-Region, OpenRouter-Routing.

Fazit: Stabilitaet und Datenschutz ohne 14k Capex

antirez hat mit ds4 gezeigt: DeepSeek V4 Flash lokal ist softwareseitig machbar — 18.404 Zeilen C, Metal-Graph, Disk-KV, OpenAI/Anthropic-API, Coding-Agent. Die echte Barriere ist 96–512GB Unified Memory, nicht der Code.

„Ultra kaufen und ds4 betreiben“ hat drei versteckte Fallen: (a) 7.000–14.500 EUR Capex und schneller Restwertverlust bei Modellwechseln; (b) SSD-TBW bei 1M-Context-Sessions ueber drei Jahre; (c) keine Tier-Elastizitaet — q2 heute, q4 morgen erfordert neues Geraet. Fuer produktive AI-Agent-Umgebungen mit Verfuegbarkeit und Datenschutz (Inferenz auf dedizierter Instanz, DSGVO bei personenbezogenen Prompts) ist MACCOME Remote-Mac 128/256/512GB auf Monats- oder Stundenbasis oft die stabilere Variante — Capex wird OpEx, Restwert- und SSD-Risiko liegen bei der Plattform, Teams teilen dieselbe Ultra fuer Experimente.

Regionen und Latenz: Multi-Region-Guide. Cloud-API plus lokal: OpenRouter-Routing.

FAQ

Kann ds4 DeepSeek V4 Pro ausfuehren?

Nein — nur Flash-GGUF aus antirez/deepseek-v4-gguf. V4 Pro braucht 512GB Unified Memory oder Multi-H100/H200. q2 vor Kauf testen: Bestellseite (Stundenmiete).

Ist q2-Qualitaet spuerbar schlechter?

q2 in ds4 ist asymmetrisch: nur geroutete MoE-Experten IQ2_XXS+Q2_K, Rest Q8/F16. Bei Code und Tool-Calling nahe Frontier-APIs; fuer Mathe/Multimodal q4 ab 256GB.

Latenz bei Remote-Mac und Cursor?

Mit ssh -L oder Tailscale, gleiche Region: RTT 5-30ms, Streaming kaum spuerbar. Cross-Region ca. 150ms First-Token. Hilfe-Center.

Warum nicht llama.cpp oder MLX?

V4 Flash allein und maximale Geschwindigkeit auf Mac → ds4. Mehrere Modelle → llama.cpp parallel; siehe OpenRouter-Routing fuer API+local.