ds4 (DwarfStar 4) — 18 404 строки C от Salvatore Sanfilippo (antirez, автор Redis): узкоспециализированный Metal-граф только под DeepSeek V4 Flash. На GitHub уже 11 185+ звёзд. Софтверная стена снята: асимметричная 2-bit квантизация (IQ2_XXS на routed MoE, Q8/F16 на остальное), дисковый KV под --kv-disk-dir, встроенный ds4-server с OpenAI/Anthropic HTTP для Cursor и агентов. Железная стена осталась: q2 = 80,8 GiB GGUF + KV (96–128 ГБ unified memory), q4 = 153,3 GiB (256 ГБ+), Pro — 512 ГБ или GPU-кластер. Ниже — пять аппаратных гейтов, таблица ds4 vs llama.cpp vs MLX, официальные 250,11 / 468,03 t/s prefill из README, TCO на 3 года и семь шагов до Cursor — без покупки Mac Studio Ultra за миллионы рублей; аренда MACCOME 128/256/512 ГБ переносит Capex и TBW SSD в OpEx.
Независимые прогоны называют ds4 «близко к frontier». Вопрос запустится ли на вашем железе — другой. Пять жёстких гейтов останавливают большинство попыток:
--kv-disk-dir держит длинные сессии, но при 1M context 24/7 за 3 года износ NVMe — реальный риск.ds4 снял софтверную стену; железная осталась — и она выше, чем кажется по звёздам на GitHub.
llama.cpp — универсальный рантайм на сотни архитектур. MLX — общий ML-стек Apple. ds4 — hand-tuned Metal graph под слои V4 Flash: kernels routed MoE, дисковый KV, ds4-server с OpenAI/Anthropic HTTP. Цена — один срез модели; выигрыш — на 128 ГБ Mac это сейчас кратчайший путь к рабочему V4 Flash.
| Параметр | ds4 | llama.cpp | MLX |
|---|---|---|---|
| Модели | только V4 Flash GGUF | сотни архитектур | большинство mainstream |
| Backend | Metal+CUDA, CPU запрещён | CPU/CUDA/Metal/Vulkan | Metal |
| 2-bit | асимметр. IQ2_XXS+Q2_K | симметр. IQ2/IQ3/Q4 | 4/8-bit |
| Дисковый KV | --kv-disk-dir | внешние tools | нет |
| 1M context | нативно | тюнинг | зависит от модели |
| API | встроен ds4-server | нужен wrapper | нужен wrapper |
| Скорость V4 Flash | топ на Mac | работает, не оптимально | не заточен |
Только V4 Flash + скорость → ds4. Ротация Llama/Qwen/Mistral → llama.cpp параллельно. Исследования на Apple Silicon → MLX.
Выбор начинается с unified memory, не с t/s на баннере. Цифры — README ds4 (M3 Max 128 ГБ, M3 Ultra 512 ГБ). Цены — ориентир Apple, май 2026.
| Тир | RAM | Mac | Цена (ориент.) | Prefill | Generation | Сценарий |
|---|---|---|---|---|---|---|
| q2 Flash | 96 ГБ (128 reco.) | MacBook Pro M3/M4/M5 Max 128 ГБ | ~600–800 тыс. ₽ | 250,11 t/s (11 709 tok) | 21,47 t/s | соло, coding agent |
| q4 Flash | 256 ГБ+ | Mac Studio M3 Ultra | ~1,2–2 млн ₽ | 448,82 t/s (12 018 tok) | 26,62 t/s | качество, длинный контекст |
| q2 Ultra | 512 ГБ reco. | Studio Ultra 512 | ~2 млн+ ₽ | 468,03 t/s | 27,39 t/s | макс. throughput |
| V4 Pro | 512 ГБ+ | — | — | нет пути ds4 | — | кластер H100/H200 |
Важно: Ultra 512 ГБ — q2 для скорости, q4 для качества. MacBook Pro максимум 128 ГБ → только q2, без q4/Pro через ds4.
Практика: соло-разработчик или POC агента → q2 128 ГБ (аренда или Pro). Команда с длинным контекстом → q4 256 ГБ+ на Studio Ultra. Максимальный throughput для роя агентов → q2 Ultra 512 ГБ. V4 Pro вне ds4 — GPU-кластер. До Capex: почасовой тест на тарифах MACCOME с Cursor.
На x86 + дискретной GPU потолок — VRAM. 80 ГБ модели = H200 (141 GB HBM, миллионы) или 4×4090 + INT4 + multi-GPU plumbing. Unified Memory Architecture Apple Silicon: CPU и GPU читают один пул 128 ГБ без PCIe round-trip — критично для sparse MoE (284B total / 13B active per token).
--kv-disk-dir для длинных сессий без полного re-prefill.Mac с большой unified memory — почти единственный consumer-класс 2026, где одновременно «влезает», «стабильно работает» и «цена терпима» для локального frontier-инференса. Metal в ds4 — не маркетинг, а следствие профиля памяти V4 Flash.
Локальный MacBook, Studio или арендованный удалённый Mac — одна цепочка; для Cursor на удалёнке добавляется только SSH -L.
git clone https://github.com/antirez/ds4 && cd ds4 && make. Не make cpu. Ожидание: ./ds4-server../download_model.sh q2|q4 — antirez/deepseek-v4-gguf, resume curl -C -../ds4-server --ctx 100000 --kv-disk-dir /tmp/ds4-kv --kv-disk-space-mb 8192 — не гоните 1M context с первого дня.curl http://localhost:8080/v1/models → deepseek-v4-flash.http://<host>:8080/v1, model deepseek-v4-flash, API key — любая строка.ssh -L 8080:localhost:8080 user@mac → Cursor на http://localhost:8080/v1. SSH runbook.git clone https://github.com/antirez/ds4 cd ds4 && ./download_model.sh q2 && make ./ds4-server --ctx 100000 --kv-disk-dir /tmp/ds4-kv --kv-disk-space-mb 8192 ssh -L 8080:localhost:8080 dev@mac-rental.example.com
Сравнение Studio Ultra 512 ГБ (покупка, ~50% остаточной стоимости за 3 года) vs аренда MACCOME по тарифам. Электричество и админка в Capex не входят.
| Вариант | Capex | 3 года | Остаток | Нетто 3 года | Гибкость tier |
|---|---|---|---|---|---|
| Покупка Ultra 256 ГБ | ~700 тыс. ₽ | 700 тыс. | +350 тыс. | ~350 тыс. ₽ | нет |
| Покупка Ultra 512 ГБ | ~2 млн+ ₽ | 2 млн+ | +1 млн | ~1 млн+ ₽ | нет |
| MACCOME 128 ГБ / мес | 0 | 36 × месяц | — | часто 30–50% покупки | 128→256→512 |
| Почасовой POC | 0 | только часы | — | минимум | максимум |
При покупке Ultra реальная цена — «~2 млн+ ₽ Capex + риск смены поколения модели + TBW SSD на своём NVMe». Аренда переносит эти три статьи на платформу. Без 18+ месяцев 24/7 аренда часто выигрывает по математике. См. матрица buy vs rent, регионы, OpenRouter routing.
antirez и ds4 показали: локальный DeepSeek V4 Flash на уровне frontier — софтверно уже возможен — 18 404 строк C, Metal, дисковый KV, OpenAI/Anthropic API, coding agent. Осталась стена 96–512 ГБ unified memory.
Покупка Ultra для ds4 таит три ловушки: (a) миллионный Capex и быстрое обесценивание при смене поколений моделей; (b) TBW SSD при длинных 1M-сессиях за 3 года; (c) нулевая эластичность tier — q2 сегодня, q4 завтра = новое железо. Для production AI Agent на выделенном инстансе (Metal, UMA, без утечки промптов в облачные API) аренда MACCOME 128/256/512 ГБ почасово или помесячно часто чище: OpEx вместо Capex, риски остаточной стоимости и SSD на платформе, команда делит одну Ultra под эксперименты.
Регионы и задержка: гид по регионам. Облачные API + локально: матрица маршрутизации OpenRouter.
FAQ
ds4 и V4 Pro?
Только Flash GGUF из antirez/deepseek-v4-gguf. Pro — кластер GPU / 512 ГБ+. Проверить q2 до покупки: оформить заказ на почасовую аренду.
Качество q2 заметно?
Асимметричная q2 (IQ2_XXS на routed experts) в code/tool-calling близка к frontier API; тяжёлая математика и мультимодал — q4 с 256 ГБ unified memory.
Латентность Cursor на удалённом Mac?
С ssh -L или Tailscale в том же регионе RTT 5–30 ms, стриминг почти не ощущается. Cross-region — ~150 ms до первого токена. центр помощи.
llama.cpp вместо ds4?
Скорость V4 Flash на Mac — ds4. Несколько open-weight моделей — llama.cpp параллельно на том же арендованном Mac; гибрид с API — матрица маршрутизации.