2026 локальный DeepSeek V4 Flash на Mac: ds4 antirez, 96-512 ГБ unified memory и матрица покупка vs облачная аренда

около 18 мин чтения · MACCOME

ds4 (DwarfStar 4) — 18 404 строки C от Salvatore Sanfilippo (antirez, автор Redis): узкоспециализированный Metal-граф только под DeepSeek V4 Flash. На GitHub уже 11 185+ звёзд. Софтверная стена снята: асимметричная 2-bit квантизация (IQ2_XXS на routed MoE, Q8/F16 на остальное), дисковый KV под --kv-disk-dir, встроенный ds4-server с OpenAI/Anthropic HTTP для Cursor и агентов. Железная стена осталась: q2 = 80,8 GiB GGUF + KV (96–128 ГБ unified memory), q4 = 153,3 GiB (256 ГБ+), Pro — 512 ГБ или GPU-кластер. Ниже — пять аппаратных гейтов, таблица ds4 vs llama.cpp vs MLX, официальные 250,11 / 468,03 t/s prefill из README, TCO на 3 года и семь шагов до Cursor — без покупки Mac Studio Ultra за миллионы рублей; аренда MACCOME 128/256/512 ГБ переносит Capex и TBW SSD в OpEx.

Пять аппаратных гейтов: почему «хороший софт» ≠ «запустится у вас»

Независимые прогоны называют ds4 «близко к frontier». Вопрос запустится ли на вашем железе — другой. Пять жёстких гейтов останавливают большинство попыток:

96 ГБ — пол, 128 ГБ — комфорт. GGUF q2 = 80,8 GiB на диске + KV + runtime. На 64 ГБ swap съедает generation t/s ниже рабочего порога.
Только Metal. CPU-путь в README: краш ядра macOS. Без Apple Silicon — не «медленно», а не стартует.
Только antirez/deepseek-v4-gguf. Асимметричная IQ2_XXS+Q2_K на routed MoE-экспертах; произвольный V4 GGUF с HF не загрузится.
Дисковый KV и TBW SSD. --kv-disk-dir держит длинные сессии, но при 1M context 24/7 за 3 года износ NVMe — реальный риск.
Capex и обесценивание. Studio Ultra 512 ГБ — миллионы рублей; поколения frontier-моделей меняются каждые 6–9 месяцев, tier q2→q4 = новое железо.

ds4 снял софтверную стену; железная осталась — и она выше, чем кажется по звёздам на GitHub.

ds4 vs llama.cpp vs MLX (механика)

llama.cpp — универсальный рантайм на сотни архитектур. MLX — общий ML-стек Apple. ds4 — hand-tuned Metal graph под слои V4 Flash: kernels routed MoE, дисковый KV, ds4-server с OpenAI/Anthropic HTTP. Цена — один срез модели; выигрыш — на 128 ГБ Mac это сейчас кратчайший путь к рабочему V4 Flash.

Параметр	ds4	llama.cpp	MLX
Модели	только V4 Flash GGUF	сотни архитектур	большинство mainstream
Backend	Metal+CUDA, CPU запрещён	CPU/CUDA/Metal/Vulkan	Metal
2-bit	асимметр. IQ2_XXS+Q2_K	симметр. IQ2/IQ3/Q4	4/8-bit
Дисковый KV	`--kv-disk-dir`	внешние tools	нет
1M context	нативно	тюнинг	зависит от модели
API	встроен ds4-server	нужен wrapper	нужен wrapper
Скорость V4 Flash	топ на Mac	работает, не оптимально	не заточен

Только V4 Flash + скорость → ds4. Ротация Llama/Qwen/Mistral → llama.cpp параллельно. Исследования на Apple Silicon → MLX.

Железо и счёт: q2 / q4 / Pro ↔ Mac

Выбор начинается с unified memory, не с t/s на баннере. Цифры — README ds4 (M3 Max 128 ГБ, M3 Ultra 512 ГБ). Цены — ориентир Apple, май 2026.

Тир	RAM	Mac	Цена (ориент.)	Prefill	Generation	Сценарий
q2 Flash	96 ГБ (128 reco.)	MacBook Pro M3/M4/M5 Max 128 ГБ	~600–800 тыс. ₽	250,11 t/s (11 709 tok)	21,47 t/s	соло, coding agent
q4 Flash	256 ГБ+	Mac Studio M3 Ultra	~1,2–2 млн ₽	448,82 t/s (12 018 tok)	26,62 t/s	качество, длинный контекст
q2 Ultra	512 ГБ reco.	Studio Ultra 512	~2 млн+ ₽	468,03 t/s	27,39 t/s	макс. throughput
V4 Pro	512 ГБ+	—	—	нет пути ds4	—	кластер H100/H200

Важно: Ultra 512 ГБ — q2 для скорости, q4 для качества. MacBook Pro максимум 128 ГБ → только q2, без q4/Pro через ds4.

Практика: соло-разработчик или POC агента → q2 128 ГБ (аренда или Pro). Команда с длинным контекстом → q4 256 ГБ+ на Studio Ultra. Максимальный throughput для роя агентов → q2 Ultra 512 ГБ. V4 Pro вне ds4 — GPU-кластер. До Capex: почасовой тест на тарифах MACCOME с Cursor.

Почему Mac: UMA и пропускная способность памяти

На x86 + дискретной GPU потолок — VRAM. 80 ГБ модели = H200 (141 GB HBM, миллионы) или 4×4090 + INT4 + multi-GPU plumbing. Unified Memory Architecture Apple Silicon: CPU и GPU читают один пул 128 ГБ без PCIe round-trip — критично для sparse MoE (284B total / 13B active per token).

UMA: M3 Max 128 ГБ грузит q2 GGUF 80,8 GiB + KV без копий CPU↔GPU.
Bandwidth: M3 Ultra ~800 GB/s + IQ2_XXS на routed experts — память успевает кормить MoE за такт.
NVMe: внутренний 5–6 GB/s стыкуется с --kv-disk-dir для длинных сессий без полного re-prefill.

Mac с большой unified memory — почти единственный consumer-класс 2026, где одновременно «влезает», «стабильно работает» и «цена терпима» для локального frontier-инференса. Metal в ds4 — не маркетинг, а следствие профиля памяти V4 Flash.

Семь шагов до Cursor (воспроизводимо)

Локальный MacBook, Studio или арендованный удалённый Mac — одна цепочка; для Cursor на удалёнке добавляется только SSH -L.

Тир: 96–128 ГБ → q2; 256+ → q4; MacBook Pro — только q2.
Сборка: git clone https://github.com/antirez/ds4 && cd ds4 && make. Не make cpu. Ожидание: ./ds4-server.
Модель: ./download_model.sh q2|q4 — antirez/deepseek-v4-gguf, resume curl -C -.
Сервер: ./ds4-server --ctx 100000 --kv-disk-dir /tmp/ds4-kv --kv-disk-space-mb 8192 — не гоните 1M context с первого дня.
Проверка: curl http://localhost:8080/v1/models → deepseek-v4-flash.
Cursor: OpenAI endpoint http://<host>:8080/v1, model deepseek-v4-flash, API key — любая строка.
Удалённый Mac: ssh -L 8080:localhost:8080 user@mac → Cursor на http://localhost:8080/v1. SSH runbook.

git clone https://github.com/antirez/ds4
cd ds4 && ./download_model.sh q2 && make
./ds4-server --ctx 100000 --kv-disk-dir /tmp/ds4-kv --kv-disk-space-mb 8192
ssh -L 8080:localhost:8080 dev@mac-rental.example.com

Три жёсткие цифры

Модель: DeepSeek V4 Flash — 284B total, 13B active/token, 1M context, FP4+FP8. Крупнейшие open-weights, реалистичные на Mac ≤512 ГБ в 2026.
Throughput (README ds4): M3 Max 128 ГБ q2, 11 709 tok: prefill 250,11, gen 21,47 t/s; Ultra 512 q2: 468,03 / 27,39; q4 Ultra 12 018 tok: 448,82 / 26,62 t/s.
GGUF: q2 80,8 GiB (routed IQ2_XXS+Q2_K, attn/shared Q8); q4 153,3 GiB; MTP 3,6 GiB.

Покупка vs аренда: TCO 3 года

Сравнение Studio Ultra 512 ГБ (покупка, ~50% остаточной стоимости за 3 года) vs аренда MACCOME по тарифам. Электричество и админка в Capex не входят.

Вариант	Capex	3 года	Остаток	Нетто 3 года	Гибкость tier
Покупка Ultra 256 ГБ	~700 тыс. ₽	700 тыс.	+350 тыс.	~350 тыс. ₽	нет
Покупка Ultra 512 ГБ	~2 млн+ ₽	2 млн+	+1 млн	~1 млн+ ₽	нет
MACCOME 128 ГБ / мес	0	36 × месяц	—	часто 30–50% покупки	128→256→512
Почасовой POC	0	только часы	—	минимум	максимум

При покупке Ultra реальная цена — «~2 млн+ ₽ Capex + риск смены поколения модели + TBW SSD на своём NVMe». Аренда переносит эти три статьи на платформу. Без 18+ месяцев 24/7 аренда часто выигрывает по математике. См. матрица buy vs rent, регионы, OpenRouter routing.

Итог: 284B локально без миллионного Capex

antirez и ds4 показали: локальный DeepSeek V4 Flash на уровне frontier — софтверно уже возможен — 18 404 строк C, Metal, дисковый KV, OpenAI/Anthropic API, coding agent. Осталась стена 96–512 ГБ unified memory.

Покупка Ultra для ds4 таит три ловушки: (a) миллионный Capex и быстрое обесценивание при смене поколений моделей; (b) TBW SSD при длинных 1M-сессиях за 3 года; (c) нулевая эластичность tier — q2 сегодня, q4 завтра = новое железо. Для production AI Agent на выделенном инстансе (Metal, UMA, без утечки промптов в облачные API) аренда MACCOME 128/256/512 ГБ почасово или помесячно часто чище: OpEx вместо Capex, риски остаточной стоимости и SSD на платформе, команда делит одну Ultra под эксперименты.

Регионы и задержка: гид по регионам. Облачные API + локально: матрица маршрутизации OpenRouter.

FAQ

ds4 и V4 Pro?

Только Flash GGUF из antirez/deepseek-v4-gguf. Pro — кластер GPU / 512 ГБ+. Проверить q2 до покупки: оформить заказ на почасовую аренду.

Качество q2 заметно?

Асимметричная q2 (IQ2_XXS на routed experts) в code/tool-calling близка к frontier API; тяжёлая математика и мультимодал — q4 с 256 ГБ unified memory.

Латентность Cursor на удалённом Mac?

С ssh -L или Tailscale в том же регионе RTT 5–30 ms, стриминг почти не ощущается. Cross-region — ~150 ms до первого токена. центр помощи.

llama.cpp вместо ds4?

Скорость V4 Flash на Mac — ds4. Несколько open-weight моделей — llama.cpp параллельно на том же арендованном Mac; гибрид с API — матрица маршрутизации.

2026 локальный DeepSeek V4 Flash на Mac: движок ds4 antirez, 96-512 ГБ unified memory и матрица покупка vs облачная аренда