2026 локальный DeepSeek V4 Flash на Mac: движок ds4 antirez, 96-512 ГБ unified memory и матрица покупка vs облачная аренда

около 18 мин чтения · MACCOME

ds4 (DwarfStar 4) — 18 404 строки C от Salvatore Sanfilippo (antirez, автор Redis): узкоспециализированный Metal-граф только под DeepSeek V4 Flash. На GitHub уже 11 185+ звёзд. Софтверная стена снята: асимметричная 2-bit квантизация (IQ2_XXS на routed MoE, Q8/F16 на остальное), дисковый KV под --kv-disk-dir, встроенный ds4-server с OpenAI/Anthropic HTTP для Cursor и агентов. Железная стена осталась: q2 = 80,8 GiB GGUF + KV (96–128 ГБ unified memory), q4 = 153,3 GiB (256 ГБ+), Pro — 512 ГБ или GPU-кластер. Ниже — пять аппаратных гейтов, таблица ds4 vs llama.cpp vs MLX, официальные 250,11 / 468,03 t/s prefill из README, TCO на 3 года и семь шагов до Cursor — без покупки Mac Studio Ultra за миллионы рублей; аренда MACCOME 128/256/512 ГБ переносит Capex и TBW SSD в OpEx.

Пять аппаратных гейтов: почему «хороший софт» ≠ «запустится у вас»

Независимые прогоны называют ds4 «близко к frontier». Вопрос запустится ли на вашем железе — другой. Пять жёстких гейтов останавливают большинство попыток:

  1. 96 ГБ — пол, 128 ГБ — комфорт. GGUF q2 = 80,8 GiB на диске + KV + runtime. На 64 ГБ swap съедает generation t/s ниже рабочего порога.
  2. Только Metal. CPU-путь в README: краш ядра macOS. Без Apple Silicon — не «медленно», а не стартует.
  3. Только antirez/deepseek-v4-gguf. Асимметричная IQ2_XXS+Q2_K на routed MoE-экспертах; произвольный V4 GGUF с HF не загрузится.
  4. Дисковый KV и TBW SSD. --kv-disk-dir держит длинные сессии, но при 1M context 24/7 за 3 года износ NVMe — реальный риск.
  5. Capex и обесценивание. Studio Ultra 512 ГБ — миллионы рублей; поколения frontier-моделей меняются каждые 6–9 месяцев, tier q2→q4 = новое железо.

ds4 снял софтверную стену; железная осталась — и она выше, чем кажется по звёздам на GitHub.

ds4 vs llama.cpp vs MLX (механика)

llama.cpp — универсальный рантайм на сотни архитектур. MLX — общий ML-стек Apple. ds4 — hand-tuned Metal graph под слои V4 Flash: kernels routed MoE, дисковый KV, ds4-server с OpenAI/Anthropic HTTP. Цена — один срез модели; выигрыш — на 128 ГБ Mac это сейчас кратчайший путь к рабочему V4 Flash.

Параметрds4llama.cppMLX
Моделитолько V4 Flash GGUFсотни архитектурбольшинство mainstream
BackendMetal+CUDA, CPU запрещёнCPU/CUDA/Metal/VulkanMetal
2-bitасимметр. IQ2_XXS+Q2_Kсимметр. IQ2/IQ3/Q44/8-bit
Дисковый KV--kv-disk-dirвнешние toolsнет
1M contextнативнотюнингзависит от модели
APIвстроен ds4-serverнужен wrapperнужен wrapper
Скорость V4 Flashтоп на Macработает, не оптимальноне заточен

Только V4 Flash + скорость → ds4. Ротация Llama/Qwen/Mistral → llama.cpp параллельно. Исследования на Apple Silicon → MLX.

Железо и счёт: q2 / q4 / Pro ↔ Mac

Выбор начинается с unified memory, не с t/s на баннере. Цифры — README ds4 (M3 Max 128 ГБ, M3 Ultra 512 ГБ). Цены — ориентир Apple, май 2026.

ТирRAMMacЦена (ориент.)PrefillGenerationСценарий
q2 Flash96 ГБ (128 reco.)MacBook Pro M3/M4/M5 Max 128 ГБ~600–800 тыс. ₽250,11 t/s (11 709 tok)21,47 t/sсоло, coding agent
q4 Flash256 ГБ+Mac Studio M3 Ultra~1,2–2 млн ₽448,82 t/s (12 018 tok)26,62 t/sкачество, длинный контекст
q2 Ultra512 ГБ reco.Studio Ultra 512~2 млн+ ₽468,03 t/s27,39 t/sмакс. throughput
V4 Pro512 ГБ+нет пути ds4кластер H100/H200

Важно: Ultra 512 ГБ — q2 для скорости, q4 для качества. MacBook Pro максимум 128 ГБ → только q2, без q4/Pro через ds4.

Практика: соло-разработчик или POC агента → q2 128 ГБ (аренда или Pro). Команда с длинным контекстом → q4 256 ГБ+ на Studio Ultra. Максимальный throughput для роя агентов → q2 Ultra 512 ГБ. V4 Pro вне ds4 — GPU-кластер. До Capex: почасовой тест на тарифах MACCOME с Cursor.

Почему Mac: UMA и пропускная способность памяти

На x86 + дискретной GPU потолок — VRAM. 80 ГБ модели = H200 (141 GB HBM, миллионы) или 4×4090 + INT4 + multi-GPU plumbing. Unified Memory Architecture Apple Silicon: CPU и GPU читают один пул 128 ГБ без PCIe round-trip — критично для sparse MoE (284B total / 13B active per token).

  • UMA: M3 Max 128 ГБ грузит q2 GGUF 80,8 GiB + KV без копий CPU↔GPU.
  • Bandwidth: M3 Ultra ~800 GB/s + IQ2_XXS на routed experts — память успевает кормить MoE за такт.
  • NVMe: внутренний 5–6 GB/s стыкуется с --kv-disk-dir для длинных сессий без полного re-prefill.

Mac с большой unified memory — почти единственный consumer-класс 2026, где одновременно «влезает», «стабильно работает» и «цена терпима» для локального frontier-инференса. Metal в ds4 — не маркетинг, а следствие профиля памяти V4 Flash.

Семь шагов до Cursor (воспроизводимо)

Локальный MacBook, Studio или арендованный удалённый Mac — одна цепочка; для Cursor на удалёнке добавляется только SSH -L.

  1. Тир: 96–128 ГБ → q2; 256+ → q4; MacBook Pro — только q2.
  2. Сборка: git clone https://github.com/antirez/ds4 && cd ds4 && make. Не make cpu. Ожидание: ./ds4-server.
  3. Модель: ./download_model.sh q2|q4antirez/deepseek-v4-gguf, resume curl -C -.
  4. Сервер: ./ds4-server --ctx 100000 --kv-disk-dir /tmp/ds4-kv --kv-disk-space-mb 8192 — не гоните 1M context с первого дня.
  5. Проверка: curl http://localhost:8080/v1/modelsdeepseek-v4-flash.
  6. Cursor: OpenAI endpoint http://<host>:8080/v1, model deepseek-v4-flash, API key — любая строка.
  7. Удалённый Mac: ssh -L 8080:localhost:8080 user@mac → Cursor на http://localhost:8080/v1. SSH runbook.
git clone https://github.com/antirez/ds4
cd ds4 && ./download_model.sh q2 && make
./ds4-server --ctx 100000 --kv-disk-dir /tmp/ds4-kv --kv-disk-space-mb 8192
ssh -L 8080:localhost:8080 dev@mac-rental.example.com

Три жёсткие цифры

  • Модель: DeepSeek V4 Flash — 284B total, 13B active/token, 1M context, FP4+FP8. Крупнейшие open-weights, реалистичные на Mac ≤512 ГБ в 2026.
  • Throughput (README ds4): M3 Max 128 ГБ q2, 11 709 tok: prefill 250,11, gen 21,47 t/s; Ultra 512 q2: 468,03 / 27,39; q4 Ultra 12 018 tok: 448,82 / 26,62 t/s.
  • GGUF: q2 80,8 GiB (routed IQ2_XXS+Q2_K, attn/shared Q8); q4 153,3 GiB; MTP 3,6 GiB.

Покупка vs аренда: TCO 3 года

Сравнение Studio Ultra 512 ГБ (покупка, ~50% остаточной стоимости за 3 года) vs аренда MACCOME по тарифам. Электричество и админка в Capex не входят.

ВариантCapex3 годаОстатокНетто 3 годаГибкость tier
Покупка Ultra 256 ГБ~700 тыс. ₽700 тыс.+350 тыс.~350 тыс. ₽нет
Покупка Ultra 512 ГБ~2 млн+ ₽2 млн++1 млн~1 млн+ ₽нет
MACCOME 128 ГБ / мес036 × месяцчасто 30–50% покупки128→256→512
Почасовой POC0только часыминимуммаксимум

При покупке Ultra реальная цена — «~2 млн+ ₽ Capex + риск смены поколения модели + TBW SSD на своём NVMe». Аренда переносит эти три статьи на платформу. Без 18+ месяцев 24/7 аренда часто выигрывает по математике. См. матрица buy vs rent, регионы, OpenRouter routing.

Итог: 284B локально без миллионного Capex

antirez и ds4 показали: локальный DeepSeek V4 Flash на уровне frontier — софтверно уже возможен — 18 404 строк C, Metal, дисковый KV, OpenAI/Anthropic API, coding agent. Осталась стена 96–512 ГБ unified memory.

Покупка Ultra для ds4 таит три ловушки: (a) миллионный Capex и быстрое обесценивание при смене поколений моделей; (b) TBW SSD при длинных 1M-сессиях за 3 года; (c) нулевая эластичность tier — q2 сегодня, q4 завтра = новое железо. Для production AI Agent на выделенном инстансе (Metal, UMA, без утечки промптов в облачные API) аренда MACCOME 128/256/512 ГБ почасово или помесячно часто чище: OpEx вместо Capex, риски остаточной стоимости и SSD на платформе, команда делит одну Ultra под эксперименты.

Регионы и задержка: гид по регионам. Облачные API + локально: матрица маршрутизации OpenRouter.

FAQ

ds4 и V4 Pro?

Только Flash GGUF из antirez/deepseek-v4-gguf. Pro — кластер GPU / 512 ГБ+. Проверить q2 до покупки: оформить заказ на почасовую аренду.

Качество q2 заметно?

Асимметричная q2 (IQ2_XXS на routed experts) в code/tool-calling близка к frontier API; тяжёлая математика и мультимодал — q4 с 256 ГБ unified memory.

Латентность Cursor на удалённом Mac?

С ssh -L или Tailscale в том же регионе RTT 5–30 ms, стриминг почти не ощущается. Cross-region — ~150 ms до первого токена. центр помощи.

llama.cpp вместо ds4?

Скорость V4 Flash на Mac — ds4. Несколько open-weight моделей — llama.cpp параллельно на том же арендованном Mac; гибрид с API — матрица маршрутизации.