想在 Mac 本機跑 DeepSeek V4 Flash?Redis 作者 antirez(Salvatore Sanfilippo)以一個檔案 18,404 行 C 程式碼寫出的 ds4(DwarfStar 4) 已把這條路打通——上線 20 天 11,185 顆 GitHub Star、Metal 計算圖執行器、磁碟 KV 快取、OpenAI 與 Anthropic 相容伺服端,軟體層幾乎零妥協。但若認真盤點硬體帳單——q2 起步須 96 至 128 GB 統一記憶體、q4 須 ≥256 GB、Pro 須 512 GB——一台頂規 Mac Studio M3 Ultra 的售價超過 NT$420,000,足以將九成開發者擋在門外。本文拆解 ds4 的技術骨架、以官方 README 公佈之實測 prefill / generation t/s、自購頂規三年 TCO 與雲端高記憶體 Mac 按需租賃三檔(128 / 256 / 512 GB)並陳於同一張帳上,提供一條不必先掏 NT$420k 的可執行決策路徑。
ds4 的程式體驗已被多份獨立評測譽為「不該如此優秀」(Towards AI 18 項任務實測)。但能否在你手上順利運作,是另一個層次的問題。將硬體、軟體、運維三層拆開檢視,至少有五條門檻會真實卡住絕大多數的嘗試者:
五道門檻疊加後的真實結論是:ds4 把「軟體之牆」拆掉了,但「硬體之牆」依然存在,而且這道牆比多數人想像得更高、更脆——你不僅要花錢,還要承擔模型迭代後的殘值風險與 SSD 損耗。後文會看到,這正是高記憶體 Mac 雲端按需租賃所能解決的問題。
把 ds4 與 llama.cpp、MLX 並列對照,最大的差別是「專一」。llama.cpp 須相容上百種架構,MLX 則是 Apple 通用機器學習堆疊;ds4 將所有工程能量集中在 DeepSeek V4 Flash 這單一模型上,換來的是:依 V4 Flash 層幾何手工微調的 Metal kernel、為路由 MoE 專門撰寫的 KV 處理、在 macOS SSD 上落地的 KV 快取協定,以及內建的 OpenAI / Anthropic 相容 HTTP 伺服端與 coding agent。
下表將 ds4 與社群最常用的兩條路徑放在同一刻度,方便判斷各情境下該選哪條。
| 面向 | ds4(antirez) | llama.cpp + 通用 GGUF | MLX(Apple 官方) |
|---|---|---|---|
| 支援模型 | 僅 DeepSeek V4 Flash 專用 GGUF | 上百種架構通用 | 多數主流模型,Apple Silicon 優先 |
| 後端 | Metal(主要)+ CUDA(Linux),CPU 僅作正確性校驗 | CPU / CUDA / Metal / Vulkan 全覆蓋 | Apple Silicon Metal 原生 |
| 2-bit 量化策略 | 非對稱:路由專家 IQ2_XXS+Q2_K,其餘保留 Q8 / F16 | 多種通用量化(IQ2 / IQ3 / Q4_K_M 等) | 4-bit / 8-bit 通用 |
| 磁碟 KV 快取 | 原生支援 --kv-disk-dir | 需自行外掛方案 | 無內建落地機制 |
| 1M context | 原生設計 | 支援但需調參 | 取決於模型實作 |
| OpenAI / Anthropic API | 內建 ds4-server | 需 llama.cpp server 或外層封裝 | 需外層封裝 |
| 編譯複雜度 | git clone && make 一步到位 | 須選 backend、裝相依套件 | pip 安裝 |
| 跑 V4 Flash 速度 | 當前 Mac 上最快路徑之一 | 常規但非最佳 | 未經手工微調 |
讀法:若僅想跑 V4 Flash 並追求速度與開箱體驗,ds4 是當下最短路徑;若需要在同一台機器上輪轉跑 Llama / Qwen / Mistral 等多種模型,llama.cpp 仍不可取代;MLX 則適合在 Apple Silicon 上做研究實驗。三者並非二選一,而是「主打 + 備援」關係——許多團隊會在雲端 Mac 上同時安裝 ds4(專跑 V4 Flash)+ llama.cpp(跑其他開源模型),按任務分流。
將 ds4 README 公開的實測數據、模型檔位、參考售價與適用場景並陳於同一張表,是進行選型決策最直接的依據。下表所有 prefill / generation 數據均來自 ds4 官方 README 在 MacBook Pro M3 Max(128 GB)與 Mac Studio M3 Ultra(512 GB)上的實測;售價依 2026-05 港台主流通路售價推估(非促銷價)。
| 檔位 | 最低記憶體 | 對應 Mac 機型(頂規) | 參考售價 | 實測 prefill | 實測 generation | 適用情境 |
|---|---|---|---|---|---|---|
| V4 Flash q2 | 96 GB(建議 128 GB) | MacBook Pro M3/M4/M5 Max 128 GB | NT$130,000–150,000 | 短 prompt 58.52 t/s;11,709 tokens 長 prompt 250.11 t/s(M3 Max 128 GB) | 26.68 t/s 短 / 21.47 t/s 長(M3 Max 128 GB) | 個人開發者、coding agent、單人日常推論 |
| V4 Flash q4 | ≥256 GB | Mac Studio M3 Ultra 256 / 512 GB | NT$240,000–420,000 | 短 prompt 78.95 t/s;12,018 tokens 長 prompt 448.82 t/s(M3 Ultra 512 GB) | 35.50 t/s 短 / 26.62 t/s 長(M3 Ultra 512 GB) | 追求品質上限、長上下文研究、小團隊共用 |
| V4 Flash q2(Ultra 加速) | ≥128 GB(建議 512 GB) | Mac Studio M3 Ultra 512 GB | NT$420,000+ | 短 prompt 84.43 t/s;11,709 tokens 長 prompt 468.03 t/s | 36.86 t/s 短 / 27.39 t/s 長 | 「速度極大化」需求、agent swarm、長對話流 |
| V4 Pro q2 | ≥512 GB(事實門檻) | Mac Studio M3 Ultra 512 GB 頂規 | NT$420,000+ | 社群暫無可重現實測(ds4 官方僅支援 Flash) | — | 非 ds4 路徑(多 H100 / H200 叢集較實際) |
讀表提示:同一台 M3 Ultra 512 GB 既能跑 q2 也能跑 q4——q2 在它上面是「速度極大化」、q4 在它上面是「品質極大化」。256 GB 的 Ultra 只能選 q4 起步。MacBook 形態最高僅支援 128 GB(M3 / M4 / M5 Max),無法承載 q4 / Pro 任何檔位。
ds4 將 Metal 後端列為主目標,並非偶然,亦非為討好 Apple——而是被 DeepSeek V4 Flash 的硬體需求倒推所致。三項本質決定了高記憶體 Mac 是當前消費級硬體中最適合本機推論的方案:
--kv-disk-dir 將 KV 快取寫入本機 SSD,讓 1M context 的對話可跨次啟動重複利用;Mac 內建 NVMe SSD 順序讀寫普遍 5–6 GB/s,與 ds4 落地協定設計基本契合,遠勝一般 SATA SSD 主機。簡而言之:高記憶體 Mac = 當前唯一能在「裝得下 + 跑得動 + 售價可接受」三角中同時落點的消費級硬體。這正是為何 ds4 選擇 Metal 優先,也是為何本機大模型推論這一波創新主要發生於 Mac 端而非 x86 PC。
下列七步是把 ds4 真正跑通至「Cursor 內可用」的最短路徑。已於 MacBook Pro M3 Max 128 GB 與 Mac Studio M3 Ultra 512 GB 驗證可重現,雲端 Mac 上 SSH 介接流程一致,僅多一步埠轉發。
git clone https://github.com/antirez/ds4 && cd ds4 && make。Apple Silicon 預設 Metal 後端,切勿執行 make cpu(CPU 路徑會觸發 macOS 虛擬記憶體 bug)。./download_model.sh q2(128 GB 機器)或 ./download_model.sh q4(≥256 GB 機器)。指令稿從 huggingface.co/antirez/deepseek-v4-gguf 拉取並支援 curl -C - 斷點續傳;q2 檔案 80.8 GiB,q4 檔案 153.3 GiB。./ds4-server --ctx 100000 --kv-disk-dir /tmp/ds4-kv --kv-disk-space-mb 8192。--ctx 切勿一上來就拉滿 1M——長上下文吃滿記憶體後會觸發置換、生成速度跳水。先從 100K 起,按需擴展。curl http://localhost:8080/v1/models,看到 deepseek-v4-flash 即正常。亦可 curl -X POST .../v1/chat/completions 發一句 hello 進一步驗證。http://<ds4-host>:8080/v1,Model 填 deepseek-v4-flash,API Key 任意字串即可(ds4 預設不檢驗)。ssh -L 8080:localhost:8080 user@mac-host,將雲端 Mac 的 ds4-server 映射至本機 8080;Cursor 設定中的 endpoint 寫 http://localhost:8080/v1 即可,與本機運行無異。詳見 SSH 常駐雲端 Mac Gateway Runbook。git clone https://github.com/antirez/ds4 cd ds4 ./download_model.sh q2 # 96-128 GB Mac make # 預設 Metal;切勿 make cpu ./ds4-server \ --ctx 100000 \ --kv-disk-dir /tmp/ds4-kv \ --kv-disk-space-mb 8192 # 雲端 Mac 上跑,本機 Cursor 介接: ssh -L 8080:localhost:8080 dev@mac-rental.example.com
將「自購 Mac Studio M3 Ultra 256 GB / 512 GB」與「按月或按時數租用 MACCOME 雲端 Mac 高記憶體節點」並陳於三年總成本(TCO)面向,可看到一組反直覺結論。下表口徑:自購按公開零售價 + 殘值五折估算;租賃按 MACCOME 同檔位 公開月租檔 推估(實際報價以訂購頁為準);電力、運維、機位均不計入自購側(實際還會更高)。
| 方案 | 初始 Capex | 三年使用成本 | 三年殘值(5 折) | 實際三年淨支出 | 彈性 |
|---|---|---|---|---|---|
| 自購 M3 Ultra 256 GB | NT$240,000 | NT$240,000(折舊吸收,電力與維運近似為 0) | +NT$120,000 回收 | ≈ NT$120,000(前提:仍可賣二手) | 無:要換 q4 / Pro 必須再買機器 |
| 自購 M3 Ultra 512 GB 頂規 | NT$420,000 | NT$420,000 | +NT$210,000 回收 | ≈ NT$210,000 | 無:模型迭代後整機貶值最嚴重 |
| MACCOME 雲端 Mac(128 GB 檔)按月 | NT$0 | 3 年 × 12 月 × 月租(詳見公開報價) | —(無殘值風險) | 典型檔位 ≈ 自購頂規的 30–50%,跑完即停可更低 | 高:可隨時切至 256 / 512 GB |
| MACCOME 雲端 Mac 按時數(短期實驗) | NT$0 | 僅按使用時數計 | — | 短期 POC 極低(按需啟停) | 極高:跑完即停、零長期承諾 |
同等情境下,自購頂規的真實成本是「砸 NT$420k Capex + 三年承擔模型迭代後殘值跳水 + 自負 SSD 損耗與維修風險」;按月或按時數租用則等同把這三種風險全部轉移出去。除非你確定自身能 7×24 滿負載使用 ≥18 個月,自購在數學上很難勝過租賃。此邏輯與 Mac mini M4 買 vs 租 TCO 決策矩陣 同源,僅是金額從萬元等級跳至數十萬元——金額越高,租賃彈性越值錢。
antirez 用 ds4 證明了一件事:本機跑 DeepSeek V4 Flash 級別的前沿大模型,於軟體層面已完全可行——18,404 行 C 程式碼、Metal 計算圖執行器、磁碟 KV 快取、OpenAI / Anthropic 相容 API、內建 coding agent,開箱即用。真正的障礙從來不是軟體,而是 96 至 512 GB 這道硬體之牆。
但若認真盤點,「自購頂規 Mac Studio Ultra 跑 ds4」其實有三項隱性陷阱:(a) 一次性 NT$130k–420k Capex 將現金流打穿,模型迭代後殘值蒸發;(b) 個人 SSD 在 1M context 長對話下的 TBW 寫入壓力,三年是真實的風險視窗;(c) 單台機器無法彈性換檔,今日跑 q2 明日想試 q4 還須再砸錢買 Ultra。對追求穩定性、可彈性、面向 AI Agent 自動化的生產環境,MACCOME 提供的雲端高記憶體 Mac 節點(128 / 256 / 512 GB 多檔)按需租賃通常是更佳解決方案——將硬體帳單從「砸盤式 Capex」改為「按需 OpEx」,將模型迭代風險與 SSD 損耗皆轉移至平台側,團隊還能共享同一台 Ultra 跑不同實驗。
具體檔位與多地區節點延遲,可對照 2026 多地區 Mac 節點延遲與成本指南,再與 2026 OpenRouter 多模型路由決策矩陣 串聯——前者解決「跑前沿模型在哪台機器上」,後者解決「雲端 API 與本機推論如何主用 + 降級互補」。兩條路一起走,才是 2026 這一波 AI 推論熱潮中最穩妥的姿態。
常見問題
ds4 可以跑 DeepSeek V4 Pro 嗎,而非 Flash?
目前 ds4 官方僅支援 DeepSeek V4 Flash 的專用 GGUF(antirez/deepseek-v4-gguf 倉庫下的 q2 / q4 / MTP 檔),並非通用 GGUF 載入器。V4 Pro 總參 1.6T、啟用 49B,硬體門檻遠高於 Flash(其 q2 量化對 Mac 統一記憶體需求即在 512 GB 以上),社群目前無可重現的 ds4 跑 Pro 路徑,主流方案是多 H100 或 H200 叢集。短期實驗如需評估 Pro,可考慮在 訂購頁 試租 Ultra 頂規檔位走 llama.cpp 多卡協定路徑。
q2 量化品質會被察覺到差距嗎?
q2 在 ds4 中是非對稱量化:僅對路由 MoE 專家做 IQ2_XXS(gate / up)+ Q2_K(down)激進壓縮,shared experts、attention proj、router、embed、indexer 全部保留 Q8_0 / F16 / F32 精度。社群 18 項評測顯示 q2 在工具呼叫與程式碼生成上接近前沿 API;若處理高精度數學推論或多模態任務,建議升至 q4(≥256 GB 記憶體)。
在雲端 Mac 跑 ds4,本機 Cursor 介接會否有明顯延遲?
ds4-server 暴露 OpenAI / Anthropic 相容 HTTP 端點,本機客戶端透過 SSH 埠轉發或 Tailscale 直連即可。同區內 RTT 通常 5–30 ms,對 token 串流輸出幾乎無感;跨區則約增加 150 ms 首字延遲,生成階段體感與本機接近。具體節點延遲見 協助中心。
為何不直接用 llama.cpp 或 MLX?
llama.cpp 與 MLX 為通用框架,需相容上百種模型架構;ds4 是 antirez 為 DeepSeek V4 Flash 單獨撰寫的 Metal 計算圖執行器,路由 MoE 專家的 KV 處理、磁碟快取、prompt 模板與工具呼叫皆針對此單一模型微調。代價是只跑這一個模型,但若想在 128 GB Mac 上把 V4 Flash 跑順,ds4 是路徑最短的解決方案。多模型情境下可在雲端 Mac 上同裝 ds4 + llama.cpp,按任務分流。