2026 DeepSeek V4 Flash en local sur Mac : ds4 d'antirez, 96-512 Go et matrice achat vs location Mac cloud

environ 18 min de lecture · MACCOME

Pour les equipes creatives et techniques qui travaillent deja sur l'ecosysteme Apple — montage, design, developpement sur MacBook Pro — l'arrivee de ds4 (DwarfStar 4) par Salvatore Sanfilippo (createur de Redis) ouvre une voie inedite : 18 404 lignes de C dediees a un seul modele, 11 185+ etoiles GitHub, moteur Metal, quantification asymetrique 2-bit (IQ2_XXS sur experts MoE routes), cache KV sur disque (--kv-disk-dir), serveur OpenAI/Anthropic integre pour Cursor et agents. Le logiciel est pret ; le materiel exige 96 a 512 Go de memoire unifiee — q2 = 80,8 GiB sur disque, q4 = 153,3 GiB. Cet article pose cinq verrous materiels, la comparaison ds4 / llama.cpp / MLX, les benchmarks officiels README (250,11 / 468,03 t/s prefill), une matrice achat vs location sur trois ans et sept etapes reproductibles — sans immobiliser 10 000+ EUR dans un Mac Studio M3 Ultra des le premier jour.

Cinq verrous materiels avant meme de lancer ds4-server

Les evaluations independantes placent ds4 « proche du frontier ». Savoir si votre Mac tiendra la charge est une autre histoire. Cinq verrous bloquent la plupart des essais — avec le lien direct vers votre workflow creatif (montage, design, dev) sur Apple :

96 Go minimum, 128 Go recommandes. Le GGUF q2 pese 80,8 GiB sur disque ; une fois en memoire, il faut le KV et la marge runtime. En dessous de 96 Go, le swap degrade la generation sous le seuil utilisable.
Metal obligatoire. Le chemin CPU peut faire planter le noyau macOS (README). Sans Apple Silicon, ce n'est pas « lent », c'est impossible.
GGUF dedies uniquement. Seul antirez/deepseek-v4-gguf avec quantification asymetrique IQ2_XXS+Q2_K sur les experts MoE routes — pas un chargeur llama.cpp generique.
Usure SSD. Le KV sur disque (--kv-disk-dir) permet de reprendre de longues sessions creatives ou d'agents, mais augmente le TBW sur 3 ans si le contexte 1M tourne 24/7.
Capex et decote. MacBook Pro 128 Go ~5 000-6 500 EUR ; Studio Ultra 512 Go > 10 000 EUR. Chaque generation de modele frontier fait chuter la valeur du materiel — rigidite de palier (q2 aujourd'hui, q4 demain = nouveau Mac).

ds4 a leve le mur logiciel ; le mur materiel reste, souvent plus haut qu'anticipe pour un studio qui partage deja des Mac pour la production.

ds4 vs llama.cpp vs MLX (specification)

Le coeur du debat : focus mono-modele. llama.cpp doit couvrir des centaines d'architectures ; MLX sert l'experimentation sur Apple Silicon. ds4 concentre graphe Metal, gestion KV MoE, persistance disque, rendu de prompts et tool-calls — le prix : recalibrage majeur si V4 Flash est remplace par une nouvelle generation ; le gain : sur Mac 128 Go, c'est aujourd'hui le chemin le plus court vers un V4 Flash utilisable avec endpoint OpenAI pour Cursor.

Lisez le tableau avec cette question : V4 Flash seul + vitesse ou rotation de plusieurs poids ouverts ? Premier cas → ds4. Second → llama.cpp en parallele sur le meme Mac loue.

Parametre	ds4	llama.cpp	MLX
Modeles	V4 Flash GGUF seul	centaines d'architectures	plupart des modeles courants
Backend	Metal (+CUDA Linux), CPU interdit	CPU/CUDA/Metal/Vulkan	Metal natif
2-bit	asymetrique IQ2_XXS+Q2_K	symetrique IQ2/IQ3/Q4	4/8-bit
KV disque	`--kv-disk-dir` natif	externe	non
Contexte 1M	natif	avec tuning	selon modele
API OpenAI	ds4-server integre	wrapper requis	wrapper requis
Vitesse V4 Flash	top sur Mac	ok, non optimal	non tune

V4 Flash seul + vitesse → ds4. Rotation Llama/Qwen/Mistral → llama.cpp en parallele. Recherche Apple Silicon → MLX.

Matrice materielle : q2 / q4 / Pro et Mac

Le choix commence par la memoire unifiee, pas par le debit affiche. Chiffres prefill/generation issus du README ds4 (M3 Max 128 Go, M3 Ultra 512 Go). Prix : Apple Store France, mai 2026, configurations haut de gamme.

Palier	RAM min.	Mac	Prix (EUR)	Prefill (README)	Generation	Usage
V4 Flash q2	96 Go (128 reco.)	MacBook Pro M3/M4/M5 Max 128 Go	5 000-6 500	250,11 t/s (11 709 tok.)	21,47 t/s	createur solo, agent code
V4 Flash q4	256 Go+	Mac Studio M3 Ultra	7 000-10 000+	448,82 t/s (12 018 tok.)	26,62 t/s	qualite max, long contexte
q2 Ultra	512 Go reco.	Studio Ultra 512 Go	10 000+	468,03 t/s	27,39 t/s	debit maximal
V4 Pro	512 Go+	—	—	pas de chemin ds4	—	cluster H100/H200

Attention : sur Ultra 512 Go, q2 privilegie la vitesse, q4 la qualite. MacBook Pro plafonne a 128 Go → q2 uniquement, pas de q4 ni Pro local via ds4.

Recommandation : createur solo ou POC agent → q2 128 Go (location ou Pro 128 Go). Equipe avec long contexte et qualite maximale → q4 256 Go+ sur Studio Ultra. Debit maximal pour essaims d'agents → q2 Ultra 512 Go. V4 Pro hors ds4 — cluster GPU. Avant Capex : test horaire sur les tarifs MACCOME avec Cursor.

Pourquoi le Mac reste l'hote naturel (memoire unifiee et flux creatif)

Sur une station x86 + GPU discret, la VRAM plafonne souvent avant 80 Go de modele — il faut alors un H200 ou un rack multi-GPU. Apple Silicon partage CPU et GPU dans un pool unique : un MacBook Pro 128 Go charge le q2 sans copies PCIe — un atout pour les pipelines ou l'on alterne deja Xcode, Final Cut ou DaVinci et un serveur d'inference local sur le meme metal.

Memoire unifiee : pas de plafond VRAM separe ; 128 Go accueillent GGUF 80,8 GiB + KV + marge runtime.
Bande passante : MoE sparse 284B / 13B actifs ; M3 Ultra ~800 Go/s + IQ2_XXS sur experts routes.
NVMe interne : 5-6 Go/s alignes sur --kv-disk-dir pour sessions longues sans re-prefill complet.

Mac haute memoire = la rare combinaison 2026 « entre », « tourne », « budget soutenable » pour l'inference frontier locale — d'ou la vague ds4 sur Mac plutot que sur PC generiques.

Sept etapes reproductibles jusqu'a Cursor

Meme procedure sur MacBook local, Studio ou Mac distant loue — seul le tunnel SSH change pour Cursor.

Palier : 96-128 Go → q2 ; 256 Go+ → q4 ; MacBook Pro → q2 seulement.
Build : git clone https://github.com/antirez/ds4 && cd ds4 && make. Ne pas make cpu. Attendu : binaire ./ds4-server.
Modele : ./download_model.sh q2|q4 depuis antirez/deepseek-v4-gguf (reprise curl -C -).
Serveur : ./ds4-server --ctx 100000 --kv-disk-dir /tmp/ds4-kv --kv-disk-space-mb 8192 — eviter 1M contexte des le premier jour.
Verification : curl http://localhost:8080/v1/models liste deepseek-v4-flash.
Cursor : endpoint OpenAI http://<host>:8080/v1, modele deepseek-v4-flash, cle API arbitraire.
Mac distant : ssh -L 8080:localhost:8080 user@mac puis http://localhost:8080/v1 — guide SSH.

git clone https://github.com/antirez/ds4
cd ds4 && ./download_model.sh q2 && make
./ds4-server --ctx 100000 --kv-disk-dir /tmp/ds4-kv --kv-disk-space-mb 8192
ssh -L 8080:localhost:8080 dev@mac-location.example.com

Trois donnees citeables (README + Hugging Face)

Modele : DeepSeek V4 Flash — 284B total, 13B actifs par token, contexte 1M, mix FP4+FP8. Parmi les plus gros open-weights realistes sur Mac ≤512 Go en 2026.
Debit officiel (README ds4) : M3 Max 128 Go q2, 11 709 tokens : prefill 250,11 t/s, generation 21,47 t/s ; M3 Ultra 512 Go q2 meme longueur : 468,03 / 27,39 t/s ; q4 Ultra 12 018 tokens : 448,82 / 26,62 t/s.
Fichiers GGUF : q2 80,8 GiB (experts routes IQ2_XXS+Q2_K, attn/shared Q8, router/embed Q16/F32) ; q4 153,3 GiB ; MTP optionnel 3,6 GiB.

Achat vs location : TCO sur trois ans

Comparaison Studio Ultra 512 Go (achat, valeur residuelle ~50 % a 3 ans) vs location MACCOME selon les tarifs publics. Electricite et exploitation non incluses dans l'achat.

Option	Capex	3 ans	Valeur residuelle	Net 3 ans	Flexibilite
Achat Ultra 256 Go	~7 000 EUR	7 000	+3 500	~3 500 EUR	pas de changement de palier
Achat Ultra 512 Go	~10 000+ EUR	10 000+	+5 000	~5 000+ EUR	pas de changement de palier
MACCOME 128 Go / mois	0	36 × tarif mensuel	—	souvent 30-50 % de l'achat	passage 256/512 Go
Location horaire POC	0	usage seul	—	tres faible	maximale

En achat direct, le cout reel d'un Ultra est souvent « 10 000+ EUR Capex + risque de generation de modele + TBW SSD a votre charge ». La location deplace ces trois postes vers la plateforme. Sous 18 mois de charge pleine, la location gagne souvent en mathematique. Voir achat vs location Mac mini, guide multi-regions, routage OpenRouter.

Conclusion : inference locale sans immobiliser le budget creatif

antirez et ds4 ont demontre une chose : l'inference locale DeepSeek V4 Flash est mûre cote logiciel — 18 404 lignes C, Metal, KV disque, API OpenAI/Anthropic, agent code integre. Le mur restant, c'est 96–512 Go de memoire unifiee.

Acheter une Ultra pour ds4 cache trois pieges : (a) Capex 7 000–10 000+ EUR et decote rapide a chaque generation frontier ; (b) pression TBW SSD sur sessions 1M contexte sur trois ans ; (c) zero elasticite de palier — q2 aujourd'hui, q4 demain = nouveau materiel. Pour un studio creatif ou une equipe produit qui veut des agents IA stables sur l'ecosysteme Apple (Xcode, montage, ds4 sur le meme metal loue, sans fuite de prompts vers des API cloud), les Mac distants MACCOME 128/256/512 Go en location mensuelle ou horaire offrent souvent le meilleur equilibre — Capex converti en OpEx, risques residuels et SSD transferes a la plateforme.

Regions et latence : guide multi-regions. API cloud + local : routage OpenRouter.

FAQ

ds4 peut-il executer V4 Pro ?

Non : ds4 ne charge que les GGUF Flash de antirez/deepseek-v4-gguf. V4 Pro exige 512 Go+ ou un cluster GPU. Pour valider q2 avant achat : commander un Mac en location horaire.

La qualite q2 est-elle perceptible ?

La q2 ds4 est asymetrique (IQ2_XXS sur experts routes, Q8/F16 ailleurs). Sur code et tool-calling, les tests rapprochent les API frontier ; pour maths lourdes ou multimodal, q4 des 256 Go.

Latence Cursor vers un Mac distant ?

Avec ssh -L ou Tailscale, meme region : RTT 5-30 ms, streaming peu perceptible. Cross-region : ~150 ms au premier token. Details : centre d'aide.

llama.cpp ou ds4 ?

V4 Flash seul et vitesse maximale sur Mac → ds4. Plusieurs modeles ouverts en rotation → llama.cpp en parallele sur le meme Mac loue ; voir aussi matrice de routage.

2026 DeepSeek V4 Flash en local sur Mac : ds4 d'antirez, 96-512 Go de memoire unifiee et matrice achat vs location cloud