2026 在 Mac 本機跑 DeepSeek V4 Flash:Redis 作者 ds4 引擎拆解、96GB 至 512GB 高記憶體 Mac 真實帳單與雲端租賃選型決策表

約 18 分鐘閱讀 · MACCOME

想在 Mac 本機跑 DeepSeek V4 Flash?Redis 作者 antirez(Salvatore Sanfilippo)以一個檔案 18,404 行 C 程式碼寫出的 ds4(DwarfStar 4) 已把這條路打通——上線 20 天 11,185 顆 GitHub Star、Metal 計算圖執行器、磁碟 KV 快取、OpenAI 與 Anthropic 相容伺服端,軟體層幾乎零妥協。但若認真盤點硬體帳單——q2 起步須 96 至 128 GB 統一記憶體、q4 須 ≥256 GB、Pro 須 512 GB——一台頂規 Mac Studio M3 Ultra 的售價超過 NT$420,000,足以將九成開發者擋在門外。本文拆解 ds4 的技術骨架、以官方 README 公佈之實測 prefill / generation t/s、自購頂規三年 TCO 與雲端高記憶體 Mac 按需租賃三檔(128 / 256 / 512 GB)並陳於同一張帳上,提供一條不必先掏 NT$420k 的可執行決策路徑

五道硬門檻:為何 ds4「軟體做得好」並不等於你能跑得起來

ds4 的程式體驗已被多份獨立評測譽為「不該如此優秀」(Towards AI 18 項任務實測)。但能否在你手上順利運作,是另一個層次的問題。將硬體、軟體、運維三層拆開檢視,至少有五條門檻會真實卡住絕大多數的嘗試者:

  1. 96 GB 統一記憶體是底線,不是目標:q2 量化的 GGUF 檔案 80.8 GiB 落地,載入記憶體之後仍需保留 KV 快取與執行階段的可用空間。社群共識是 96 GB 為底線、128 GB 才舒適;64 GB 機器即便裝得進去,也會因為激進的記憶體置換而把生成速度拉到不可用。
  2. 僅支援 Metal 路徑,CPU 推論將造成核心崩潰:ds4 的伺服端目前僅發行 Metal 後端(macOS)與 CUDA 後端(Linux),CPU 路徑被官方 README 直接標示警告「會讓核心崩潰,每次都要重新開機」。意即無 Apple Silicon 或 NVIDIA GPU 的機器,連跑都跑不起來,並非速度慢一點的問題。
  3. 非對稱 2-bit 量化的特殊性:q2 並非單純對整個模型套用 IQ2_XXS,而是「路由 MoE 專家以 IQ2_XXS(gate / up)+ Q2_K(down)激進壓縮」、「shared experts / attn proj / router / embed / indexer 全部保留 Q8_0 / F16 / F32」的非對稱設計。此量化僅在 antirez 自己倉庫的 deepseek-v4-gguf 檔案裡實作,無法以任意 V4 GGUF 替代——拿一份 Hugging Face 上一般 V4 GGUF 來跑,會直接失敗。
  4. 磁碟 KV 快取對 SSD 壽命的隱性消耗:ds4 的殺手特性之一是 KV 落地——長對話、長上下文不必每次重新 prefill,代價是 SSD 寫入壓力陡增。Mac 內建 SSD 的 TBW(總寫入量)是有限的;7×24 跑 1M context 推論,三年內把 SSD 寫穿並非危言聳聽。
  5. 個人 Capex 的一次性投入:q2 走 MacBook Pro M3/M4/M5 Max 128GB,參考售價 NT$130,000–150,000;q4 須 Mac Studio Ultra 256GB,NT$240,000+;Pro 量化須 512GB Mac Studio M3 Ultra 頂規,NT$420,000+。這不是月費,而是一次性投入的資本支出,且模型迭代後殘值貶至五折已成常態。

五道門檻疊加後的真實結論是:ds4 把「軟體之牆」拆掉了,但「硬體之牆」依然存在,而且這道牆比多數人想像得更高、更脆——你不僅要花錢,還要承擔模型迭代後的殘值風險與 SSD 損耗。後文會看到,這正是高記憶體 Mac 雲端按需租賃所能解決的問題。

ds4 技術骨架:它究竟最佳化了什麼

把 ds4 與 llama.cpp、MLX 並列對照,最大的差別是「專一」。llama.cpp 須相容上百種架構,MLX 則是 Apple 通用機器學習堆疊;ds4 將所有工程能量集中在 DeepSeek V4 Flash 這單一模型上,換來的是:依 V4 Flash 層幾何手工微調的 Metal kernel、為路由 MoE 專門撰寫的 KV 處理、在 macOS SSD 上落地的 KV 快取協定,以及內建的 OpenAI / Anthropic 相容 HTTP 伺服端與 coding agent。

下表將 ds4 與社群最常用的兩條路徑放在同一刻度,方便判斷各情境下該選哪條。

面向 ds4(antirez) llama.cpp + 通用 GGUF MLX(Apple 官方)
支援模型僅 DeepSeek V4 Flash 專用 GGUF上百種架構通用多數主流模型,Apple Silicon 優先
後端Metal(主要)+ CUDA(Linux),CPU 僅作正確性校驗CPU / CUDA / Metal / Vulkan 全覆蓋Apple Silicon Metal 原生
2-bit 量化策略非對稱:路由專家 IQ2_XXS+Q2_K,其餘保留 Q8 / F16多種通用量化(IQ2 / IQ3 / Q4_K_M 等)4-bit / 8-bit 通用
磁碟 KV 快取原生支援 --kv-disk-dir需自行外掛方案無內建落地機制
1M context原生設計支援但需調參取決於模型實作
OpenAI / Anthropic API內建 ds4-server需 llama.cpp server 或外層封裝需外層封裝
編譯複雜度git clone && make 一步到位須選 backend、裝相依套件pip 安裝
跑 V4 Flash 速度當前 Mac 上最快路徑之一常規但非最佳未經手工微調

讀法:若僅想跑 V4 Flash 並追求速度與開箱體驗,ds4 是當下最短路徑;若需要在同一台機器上輪轉跑 Llama / Qwen / Mistral 等多種模型,llama.cpp 仍不可取代;MLX 則適合在 Apple Silicon 上做研究實驗。三者並非二選一,而是「主打 + 備援」關係——許多團隊會在雲端 Mac 上同時安裝 ds4(專跑 V4 Flash)+ llama.cpp(跑其他開源模型),按任務分流。

硬體門檻帳單:q2 / q4 / Pro 三檔對應何種 Mac

將 ds4 README 公開的實測數據、模型檔位、參考售價與適用場景並陳於同一張表,是進行選型決策最直接的依據。下表所有 prefill / generation 數據均來自 ds4 官方 README 在 MacBook Pro M3 Max(128 GB)與 Mac Studio M3 Ultra(512 GB)上的實測;售價依 2026-05 港台主流通路售價推估(非促銷價)。

檔位 最低記憶體 對應 Mac 機型(頂規) 參考售價 實測 prefill 實測 generation 適用情境
V4 Flash q2 96 GB(建議 128 GB) MacBook Pro M3/M4/M5 Max 128 GB NT$130,000–150,000 短 prompt 58.52 t/s;11,709 tokens 長 prompt 250.11 t/s(M3 Max 128 GB) 26.68 t/s 短 / 21.47 t/s 長(M3 Max 128 GB) 個人開發者、coding agent、單人日常推論
V4 Flash q4 ≥256 GB Mac Studio M3 Ultra 256 / 512 GB NT$240,000–420,000 短 prompt 78.95 t/s;12,018 tokens 長 prompt 448.82 t/s(M3 Ultra 512 GB) 35.50 t/s 短 / 26.62 t/s 長(M3 Ultra 512 GB) 追求品質上限、長上下文研究、小團隊共用
V4 Flash q2(Ultra 加速) ≥128 GB(建議 512 GB) Mac Studio M3 Ultra 512 GB NT$420,000+ 短 prompt 84.43 t/s;11,709 tokens 長 prompt 468.03 t/s 36.86 t/s 短 / 27.39 t/s 長 「速度極大化」需求、agent swarm、長對話流
V4 Pro q2 ≥512 GB(事實門檻) Mac Studio M3 Ultra 512 GB 頂規 NT$420,000+ 社群暫無可重現實測(ds4 官方僅支援 Flash) 非 ds4 路徑(多 H100 / H200 叢集較實際)
warning

讀表提示:同一台 M3 Ultra 512 GB 既能跑 q2 也能跑 q4——q2 在它上面是「速度極大化」、q4 在它上面是「品質極大化」。256 GB 的 Ultra 只能選 q4 起步。MacBook 形態最高僅支援 128 GB(M3 / M4 / M5 Max),無法承載 q4 / Pro 任何檔位。

為何必須是 Mac:UMA 並非行銷話術

ds4 將 Metal 後端列為主目標,並非偶然,亦非為討好 Apple——而是被 DeepSeek V4 Flash 的硬體需求倒推所致。三項本質決定了高記憶體 Mac 是當前消費級硬體中最適合本機推論的方案:

  • 統一記憶體架構(UMA)打破「VRAM 即上限」的詛咒:在 x86 + 獨立 GPU 平台上,VRAM 容量決定模型能否裝得下;要跑 80 GB 模型,要嘛上 H200(141 GB HBM3e)一張數十萬元,要嘛用 4× RTX 4090 + INT4 + 多卡通訊,工程複雜度爆表。Apple Silicon 的 UMA 讓 CPU 與 GPU 共享同一塊大記憶體,128 GB 的 M3 Max 裝得下 80.8 GB 的 q2 GGUF + KV + 執行階段,沒有任何 PCIe 來回搬運,這是獨立顯示卡平台無法複製的先天優勢。
  • M 系列記憶體頻寬是 MoE 的友好區:DeepSeek V4 Flash 是稀疏 MoE(284B 總參 / 13B 啟用),每一個 token 都須從記憶體讀取被路由到的專家權重;頻寬決定上限。M3 Ultra 約 800 GB/s 級頻寬 + IQ2_XXS 將啟用專家壓到極限小,正好讓 13B 啟用的每 token 記憶體搬運壓力,落在 Mac 記憶體頻寬可承載的範圍。
  • macOS 高速 SSD 與磁碟 KV 落地的契合:ds4 的 --kv-disk-dir 將 KV 快取寫入本機 SSD,讓 1M context 的對話可跨次啟動重複利用;Mac 內建 NVMe SSD 順序讀寫普遍 5–6 GB/s,與 ds4 落地協定設計基本契合,遠勝一般 SATA SSD 主機。

簡而言之:高記憶體 Mac = 當前唯一能在「裝得下 + 跑得動 + 售價可接受」三角中同時落點的消費級硬體。這正是為何 ds4 選擇 Metal 優先,也是為何本機大模型推論這一波創新主要發生於 Mac 端而非 x86 PC。

落地七步:從 git clone 到 Cursor 介接

下列七步是把 ds4 真正跑通至「Cursor 內可用」的最短路徑。已於 MacBook Pro M3 Max 128 GB 與 Mac Studio M3 Ultra 512 GB 驗證可重現,雲端 Mac 上 SSH 介接流程一致,僅多一步埠轉發。

  1. 選檔位:96–128 GB Mac → q2;256 GB+ → q4 或 q2 二擇一;MacBook Pro 永遠只能 q2。
  2. 克隆並編譯git clone https://github.com/antirez/ds4 && cd ds4 && make。Apple Silicon 預設 Metal 後端,切勿執行 make cpu(CPU 路徑會觸發 macOS 虛擬記憶體 bug)。
  3. 下載模型./download_model.sh q2(128 GB 機器)或 ./download_model.sh q4(≥256 GB 機器)。指令稿從 huggingface.co/antirez/deepseek-v4-gguf 拉取並支援 curl -C - 斷點續傳;q2 檔案 80.8 GiB,q4 檔案 153.3 GiB。
  4. 啟動伺服./ds4-server --ctx 100000 --kv-disk-dir /tmp/ds4-kv --kv-disk-space-mb 8192--ctx 切勿一上來就拉滿 1M——長上下文吃滿記憶體後會觸發置換、生成速度跳水。先從 100K 起,按需擴展。
  5. 驗證伺服端:另開終端 curl http://localhost:8080/v1/models,看到 deepseek-v4-flash 即正常。亦可 curl -X POST .../v1/chat/completions 發一句 hello 進一步驗證。
  6. 介接 Cursor / opencode 等客戶端:在 Cursor 模型設定中新增自訂 OpenAI 相容 endpoint,URL 指向 http://<ds4-host>:8080/v1,Model 填 deepseek-v4-flash,API Key 任意字串即可(ds4 預設不檢驗)。
  7. 雲端 Mac 介接:SSH 埠轉發:本機終端 ssh -L 8080:localhost:8080 user@mac-host,將雲端 Mac 的 ds4-server 映射至本機 8080;Cursor 設定中的 endpoint 寫 http://localhost:8080/v1 即可,與本機運行無異。詳見 SSH 常駐雲端 Mac Gateway Runbook
bash
git clone https://github.com/antirez/ds4
cd ds4
./download_model.sh q2          # 96-128 GB Mac
make                             # 預設 Metal;切勿 make cpu

./ds4-server \
  --ctx 100000 \
  --kv-disk-dir /tmp/ds4-kv \
  --kv-disk-space-mb 8192

# 雲端 Mac 上跑,本機 Cursor 介接:
ssh -L 8080:localhost:8080 dev@mac-rental.example.com

三組可引用的硬數據(來自 ds4 官方 README + Hugging Face)

  • 模型規格:DeepSeek V4 Flash 總參 284B、啟用 13B、context length 1M tokens、原始精度 FP4 + FP8 Mixed。這是當前能在 ≤512 GB 統一記憶體 Mac 上跑的最大開放權重模型
  • 實測吞吐:MacBook Pro M3 Max 128 GB q2 在 11,709 tokens 長 prompt 上 prefill 250.11 t/s、generation 21.47 t/s;Mac Studio M3 Ultra 512 GB q2 同 prompt prefill 468.03 t/s、generation 27.39 t/s;q4 在 M3 Ultra 上 12,018 tokens 長 prompt prefill 448.82 t/s、generation 26.62 t/s
  • GGUF 落地體積:q2 檔案 80.8 GiB(IQ2_XXS gate / up + Q2_K down + Q8 attn / shared / out + F16 router / embed / indexer / HC / compressor + F32 norms / sinks / bias);q4 檔案 153.3 GiB(路由專家 Q4_K,其餘同 q2);可選 MTP 投機解碼 3.6 GiB

買 vs 租:三年總帳讓帳面說話

將「自購 Mac Studio M3 Ultra 256 GB / 512 GB」與「按月或按時數租用 MACCOME 雲端 Mac 高記憶體節點」並陳於三年總成本(TCO)面向,可看到一組反直覺結論。下表口徑:自購按公開零售價 + 殘值五折估算;租賃按 MACCOME 同檔位 公開月租檔 推估(實際報價以訂購頁為準);電力、運維、機位均不計入自購側(實際還會更高)。

方案 初始 Capex 三年使用成本 三年殘值(5 折) 實際三年淨支出 彈性
自購 M3 Ultra 256 GB NT$240,000 NT$240,000(折舊吸收,電力與維運近似為 0) +NT$120,000 回收 ≈ NT$120,000(前提:仍可賣二手) 無:要換 q4 / Pro 必須再買機器
自購 M3 Ultra 512 GB 頂規 NT$420,000 NT$420,000 +NT$210,000 回收 ≈ NT$210,000 無:模型迭代後整機貶值最嚴重
MACCOME 雲端 Mac(128 GB 檔)按月 NT$0 3 年 × 12 月 × 月租(詳見公開報價) —(無殘值風險) 典型檔位 ≈ 自購頂規的 30–50%,跑完即停可更低 高:可隨時切至 256 / 512 GB
MACCOME 雲端 Mac 按時數(短期實驗) NT$0 僅按使用時數計 短期 POC 極低(按需啟停) 極高:跑完即停、零長期承諾

同等情境下,自購頂規的真實成本是「砸 NT$420k Capex + 三年承擔模型迭代後殘值跳水 + 自負 SSD 損耗與維修風險」;按月或按時數租用則等同把這三種風險全部轉移出去。除非你確定自身能 7×24 滿負載使用 ≥18 個月,自購在數學上很難勝過租賃。此邏輯與 Mac mini M4 買 vs 租 TCO 決策矩陣 同源,僅是金額從萬元等級跳至數十萬元——金額越高,租賃彈性越值錢。

收束:跑前沿大模型,無須先掏 NT$420k

antirez 用 ds4 證明了一件事:本機跑 DeepSeek V4 Flash 級別的前沿大模型,於軟體層面已完全可行——18,404 行 C 程式碼、Metal 計算圖執行器、磁碟 KV 快取、OpenAI / Anthropic 相容 API、內建 coding agent,開箱即用。真正的障礙從來不是軟體,而是 96 至 512 GB 這道硬體之牆。

但若認真盤點,「自購頂規 Mac Studio Ultra 跑 ds4」其實有三項隱性陷阱:(a) 一次性 NT$130k–420k Capex 將現金流打穿,模型迭代後殘值蒸發(b) 個人 SSD 在 1M context 長對話下的 TBW 寫入壓力,三年是真實的風險視窗(c) 單台機器無法彈性換檔,今日跑 q2 明日想試 q4 還須再砸錢買 Ultra。對追求穩定性、可彈性、面向 AI Agent 自動化的生產環境,MACCOME 提供的雲端高記憶體 Mac 節點(128 / 256 / 512 GB 多檔)按需租賃通常是更佳解決方案——將硬體帳單從「砸盤式 Capex」改為「按需 OpEx」,將模型迭代風險與 SSD 損耗皆轉移至平台側,團隊還能共享同一台 Ultra 跑不同實驗。

具體檔位與多地區節點延遲,可對照 2026 多地區 Mac 節點延遲與成本指南,再與 2026 OpenRouter 多模型路由決策矩陣 串聯——前者解決「跑前沿模型在哪台機器上」,後者解決「雲端 API 與本機推論如何主用 + 降級互補」。兩條路一起走,才是 2026 這一波 AI 推論熱潮中最穩妥的姿態。

常見問題

ds4 可以跑 DeepSeek V4 Pro 嗎,而非 Flash?

目前 ds4 官方僅支援 DeepSeek V4 Flash 的專用 GGUF(antirez/deepseek-v4-gguf 倉庫下的 q2 / q4 / MTP 檔),並非通用 GGUF 載入器。V4 Pro 總參 1.6T、啟用 49B,硬體門檻遠高於 Flash(其 q2 量化對 Mac 統一記憶體需求即在 512 GB 以上),社群目前無可重現的 ds4 跑 Pro 路徑,主流方案是多 H100 或 H200 叢集。短期實驗如需評估 Pro,可考慮在 訂購頁 試租 Ultra 頂規檔位走 llama.cpp 多卡協定路徑。

q2 量化品質會被察覺到差距嗎?

q2 在 ds4 中是非對稱量化:僅對路由 MoE 專家做 IQ2_XXS(gate / up)+ Q2_K(down)激進壓縮,shared experts、attention proj、router、embed、indexer 全部保留 Q8_0 / F16 / F32 精度。社群 18 項評測顯示 q2 在工具呼叫與程式碼生成上接近前沿 API;若處理高精度數學推論或多模態任務,建議升至 q4(≥256 GB 記憶體)。

在雲端 Mac 跑 ds4,本機 Cursor 介接會否有明顯延遲?

ds4-server 暴露 OpenAI / Anthropic 相容 HTTP 端點,本機客戶端透過 SSH 埠轉發或 Tailscale 直連即可。同區內 RTT 通常 5–30 ms,對 token 串流輸出幾乎無感;跨區則約增加 150 ms 首字延遲,生成階段體感與本機接近。具體節點延遲見 協助中心

為何不直接用 llama.cpp 或 MLX?

llama.cpp 與 MLX 為通用框架,需相容上百種模型架構;ds4 是 antirez 為 DeepSeek V4 Flash 單獨撰寫的 Metal 計算圖執行器,路由 MoE 專家的 KV 處理、磁碟快取、prompt 模板與工具呼叫皆針對此單一模型微調。代價是只跑這一個模型,但若想在 128 GB Mac 上把 V4 Flash 跑順,ds4 是路徑最短的解決方案。多模型情境下可在雲端 Mac 上同裝 ds4 + llama.cpp,按任務分流。