2026년 5월, Redis 창시자 antirez가 공개한 ds4(DwarfStar 4)는 단일 파일 18,404줄 C 추론 엔진으로 DeepSeek V4 Flash 전용입니다. GitHub 스타 11,185+, Metal 우선, 디스크 KV, OpenAI/Anthropic 호환 서버까지 갖춰 소프트웨어 장벽은 사실상 해소됐습니다. 반면 q2는 96-128GB, q4는 256GB+, Pro는 512GB급 통합 메모리가 필요해 Mac Studio M3 Ultra 풀스펙은 약 2,000만 원대입니다. 본 글은 IQ2_XXS 비대칭 양자화, 공식 README Mac 벤치마크, 3년 TCO 구매 vs 클라우드 대여, Cursor 연결까지 7단계 재현 가이드를 한 장의 결정 매트릭스로 정리합니다.
ds4는 18개 태스크 독립 평가에서 「프론티어 API에 가깝다」는 평가를 받았습니다. 그러나 내 Mac에서 실제로 돌아가느냐는 완전히 다른 문제입니다. 하드웨어·소프트웨어·운영을 분리해 보면, 대부분의 팀이 막히는 지점은 최소 다섯 곳입니다.
antirez/deepseek-v4-gguf 전용이며, Hugging Face의 일반 V4 GGUF로는 로드에 실패합니다.다섯 가지를 합치면 결론은 명확합니다. ds4는 소프트웨어 벽을 허물었지만 하드웨어 벽은 그대로이며, 벽은 생각보다 높고 깨지기 쉽습니다. 이후 절에서 다루듯, 고메모리 Mac 클라우드 대여는 Capex·SSD·티어 전환 리스크를 OpEx로 옮기는 현실적인 해법입니다.
ds4와 llama.cpp·MLX를 비교할 때 핵심은 단일 모델 집중입니다. llama.cpp는 수백 아키텍처를 포괄해야 하고, MLX는 Apple 범용 ML 스택입니다. ds4는 DeepSeek V4 Flash 한 모델에 Metal 그래프·MoE KV·디스크 KV 프로토콜·OpenAI/Anthropic 호환 HTTP·코딩 에이전트를 몰아 넣었습니다. 대가는 V4 Flash가 대체되면 엔진 상당 부분을 다시 짜야 한다는 점입니다.
아래 표는 같은 축에서 세 경로를 놓은 것입니다. 「V4 Flash만 빠르게」 vs 「여러 오픈 모델 로테이션」을 먼저 정한 뒤 읽으세요.
| 항목 | ds4 | llama.cpp | MLX |
|---|---|---|---|
| 모델 | V4 Flash 전용 GGUF | 수백 아키텍처 | 주요 모델 다수 |
| 백엔드 | Metal+CUDA, CPU 금지 | CPU/CUDA/Metal/Vulkan | Apple Metal |
| 2-bit | 비대칭 IQ2_XXS+Q2_K | 대칭 IQ2/IQ3/Q4 | 4/8-bit |
| 디스크 KV | --kv-disk-dir 내장 | 외부 도구 | 없음 |
| 1M context | 네이티브 | 튜닝 필요 | 모델 의존 |
| API | ds4-server 내장 | 래퍼 필요 | 래퍼 필요 |
| V4 Flash 속도 | Mac 최상위권 | 동작하나 비최적 | 미튜닝 |
V4 Flash만·속도·즉시 사용 → ds4. Llama/Qwen/Mistral 로테이션 → llama.cpp 병행. Apple Silicon 연구 → MLX. 많은 팀은 원격 Mac에 ds4(V4 Flash)+llama.cpp(기타)를 같이 두고 태스크별로 라우팅합니다.
선택은 「얼마나 빠르게」가 아니라 「얼마나 많은 통합 메모리가 필요한가」에서 시작합니다. 아래는 ds4 README의 MacBook Pro M3 Max 128GB·Mac Studio M3 Ultra 512GB 공식 벤치마크, 2026-05 Apple Korea 참고가, 적용 시나리오를 한 표에 모은 것입니다.
| 티어 | 최소 메모리 | Mac | 참고가(원) | prefill | generation | 적합 |
|---|---|---|---|---|---|---|
| V4 Flash q2 | 96GB(128GB 권장) | MacBook Pro M3/M4/M5 Max 128GB | 약 600-800만 | 짧은 58.52 t/s; 11,709토큰 250.11 t/s(M3 Max) | 26.68/21.47 t/s | 개인·코딩 에이전트 |
| V4 Flash q4 | 256GB+ | Mac Studio M3 Ultra | 약 1,200-2,000만 | 12,018토큰 448.82 t/s(Ultra 512GB) | 35.50/26.62 t/s | 품질·장문·소팀 |
| q2 Ultra | 128GB(512GB 권장) | Studio Ultra 512GB | 약 2,000만+ | 11,709토큰 468.03 t/s | 36.86/27.39 t/s | 속도·에이전트 스웜 |
| V4 Pro q2 | 512GB | Studio Ultra 풀스펙 | 약 2,000만+ | ds4 미지원 | — | 다중 H100/H200 |
참고: Ultra 512GB는 q2(속도)와 q4(품질) 모두 가능. MacBook Pro는 128GB 상한으로 q4/Pro 불가.
ds4가 Metal을 1순위로 둔 것은 마케팅이 아니라 V4 Flash의 메모리 프로필 때문입니다.
--kv-disk-dir는 세션 간 KV를 SSD에 둡니다. Mac 내장 NVMe 순차 5–6GB/s는 이 프로토콜과 잘 맞고, 일반 SATA PC에서는 실용성이 떨어집니다.고메모리 Mac = 현재 소비자급에서 「들어가고·돌아가고·가격이 버텨지는」삼각을 동시에 만족하는 거의 유일한 선택입니다. 2026년 로컬 프론티어 추론이 Mac에 쏠리는 구조적 이유입니다.
로컬 128GB MacBook Pro, 로컬 512GB Studio, 원격 Mac 모두 동일합니다. 원격만 SSH 포트 포워딩 한 줄이 추가됩니다.
git clone https://github.com/antirez/ds4 && cd ds4 && make. Metal 기본. make cpu 금지(커널 크래시). 기대: ./ds4, ./ds4-server 생성../download_model.sh q2 또는 q4. antirez/deepseek-v4-gguf, curl -C - 재개 지원. q2 80.8GiB, q4 153.3GiB../ds4-server --ctx 100000 --kv-disk-dir /tmp/ds4-kv --kv-disk-space-mb 8192. 처음부터 1M context는 스왑 유발 — 100K부터 확장.curl http://localhost:8080/v1/models에 deepseek-v4-flash 표시. 짧은 POST /v1/chat/completions로 생성 확인 권장.http://<host>:8080/v1, 모델 deepseek-v4-flash, API Key 임의 문자열.ssh -L 8080:localhost:8080 user@mac-host 후 Cursor는 http://localhost:8080/v1. 상세: SSH 로컬 포워딩 Runbook.git clone https://github.com/antirez/ds4 cd ds4 && ./download_model.sh q2 && make ./ds4-server --ctx 100000 --kv-disk-dir /tmp/ds4-kv --kv-disk-space-mb 8192 ssh -L 8080:localhost:8080 dev@mac-rental.example.com
「Mac Studio Ultra 512GB 자체 구매」와 「MACCOME 고메모리 원격 Mac 월/시간 대여」를 3년 TCO로 놓았습니다. 구매 측은 공개가+잔가 50% 가정(실제 중고는 더 낮을 수 있음). 대여는 공개 요금표 기준(실제 견적은 주문 페이지). 전력·운영·공간은 구매 측 미포함(포함 시 격차 확대).
| 옵션 | 초기 | 3년 | 잔가 | 순지출 | 탄력 |
|---|---|---|---|---|---|
| 구매 Ultra 256GB | 약 1,200만 | 동일 | +600만 | 약 600만 | 없음 |
| 구매 Ultra 512GB | 약 2,000만 | 동일 | +1,000만 | 약 1,000만 | 없음 |
| MACCOME 128GB 월 | 0 | 36×월요금 | — | 풀스펙 구매 30-50% | 256/512 전환 |
| MACCOME 시간 | 0 | 사용시간만 | — | POC 최저 | 최대 |
동일 시나리오에서 자체 구매 Ultra의 실비용은 「2,000만 원대 Capex + 3년 모델 세대 리스크 + SSD TBW 자부담」입니다. 월/시간 대여는 이 세 가지를 플랫폼으로 옮깁니다. 18개월 이상 24/7 풀가동이 확실하지 않으면 수학적으로 대여가 유리한 경우가 많습니다. 논리는 Mac mini M4 구매 vs 대여 TCO와 같고, 금액만 10배 스케일입니다.
antirez와 ds4가 보여 준 것은 분명합니다. 284B급 프론티어 모델의 로컬 추론은 소프트웨어적으로 이미 가능합니다 — 18,404줄 C, Metal 우선, 디스크 KV, OpenAI/Anthropic API, 코딩 에이전트. 남은 것은 96–512GB 하드웨어 벽이며, 개인·소규모 팀에게는 비용뿐 아니라 깨지기 쉽습니다.
Ultra를 사서 ds4를 돌릴 때 숨은 비용은 세 가지입니다. (a) 600만–2,000만 원대 일회성 Capex와 빠른 잔가 하락, (b) 1M context 장기 운용 시 SSD TBW, (c) q2에서 q4로 바꿀 때 기계를 다시 사야 하는 비탄력성. AI Agent 스택·소팀 공유 실험·프로덕션에 가까운 안정성을 원한다면, MACCOME 128/256/512GB 고메모리 원격 Mac 월/시간 대여가 Capex→OpEx 전환, 잔가·SSD 리스크 이전, 팀 공유 측면에서 더 나은 선택인 경우가 많습니다.
지역·지연: 다지역 Mac 노드 가이드. 클라우드 API+로컬: OpenRouter 라우팅 매트릭스.
FAQ
ds4로 DeepSeek V4 Pro를 실행할 수 있나요?
아니요. ds4는 antirez/deepseek-v4-gguf의 V4 Flash 전용 GGUF(q2/q4/MTP)만 지원하며 범용 로더가 아닙니다. V4 Pro(총 1.6T·활성 49B)는 q2에도 512GB급 통합 메모리 또는 다중 H100/H200이 필요합니다. ds4로 Pro를 돌리는 재현 가능한 경로는 현재 없습니다. 단기 평가는 주문 페이지에서 Ultra를 시간 단위로 대여해 llama.cpp 멀티 GPU 경로를 검토하세요.
q2 양자화 품질 저하가 체감되나요?
ds4의 q2는 비대칭입니다. 라우팅 MoE만 IQ2_XXS+Q2_K, shared experts·attention·router·embed는 Q8/F16/F32 유지. 18개 태스크 평가에서 도구 호출·코드 생성은 프론티어 API에 근접했습니다. 고정밀 수학·멀티모달은 q4(256GB+)를 권장합니다.
원격 Mac의 ds4에 Cursor로 접속하면 지연이 문제인가요?
ds4-server는 OpenAI·Anthropic 호환 HTTP를 제공합니다. SSH 포트 포워딩 또는 Tailscale로 연결하면 동일 리전 RTT 5–30ms로 스트리밍 토큰은 거의 무감합니다. 크로스 리전은 첫 토큰에 약 150ms가 더해지나 이후 체감은 로컬과 유사합니다. 리전 페어링은 고객 센터를 참고하세요.
llama.cpp나 MLX 대신 ds4를 쓰는 이유는?
llama.cpp·MLX는 범용 런타임입니다. ds4는 V4 Flash 전용 Metal 그래프로 가장 짧은 경로입니다. 다모델이 필요하면 같은 원격 Mac에 ds4+llama.cpp를 두고 태스크별 라우팅하는 구성이 일반적입니다.