Redisの作者であるantirez(Salvatore Sanfilippo)氏が、わずか1週間で書き上げた ds4(DwarfStar 4) は、単一ファイル18,404行のC言語推論エンジンであり、DeepSeek V4 Flash専用に設計されています。2026年5月時点でGitHubスター数は11,185を記録し、284Bパラメータのフロンティアモデルをローカルで動かす際の「ソフトウェアの壁」は事実上解消されました。一方で、q2量子化でも96〜128GB、q4で256GB以上、Pro量子化では512GBクラスのMac Studio M3 Ultra頂点構成が必要であり、価格は約60万円から200万円超に達します。本記事では、ds4の非対称IQ2_XXS量子化の仕組み、公式READMEに掲載されているMac Metalのprefill / generationベンチマーク、自前購入とクラウドレンタルの3年TCO比較、そしてgit cloneからCursor接続まで再現可能な7ステップ手順を順を追って解説いたします。
ds4のコード品質は、独立評価で高く評価されております。Towards AIによる18タスクの実測では「フロンティアAPIに近い体験」と報告されました。しかし、実際に手元で動かせるかは別問題です。ハードウェア、ソフトウェア、運用の3層に分けて検討すると、少なくとも以下の5つの障壁が、多くの試行者を阻みます。
これら5つの障壁を統合した結論は、次のとおりです。ds4は「ソフトウェアの壁」を取り除きましたが、「ハードウェアの壁」は依然として存在します。しかも、その壁は想像以上に高く、もろい性質を持っています。後述する高メモリMacのクラウドレンタルは、まさにこの問題を解決するために設計されています。
ds4をllama.cppおよびMLXと比較した際の最大の違いは、「単一モデルへの集中」です。llama.cppは数百のアーキテクチャに対応する必要があり、MLXはApple汎用機械学習スタックです。一方ds4は、エンジニアリング能力をDeepSeek V4 Flashという単一モデルに全集中させています。その結果として、V4 Flashの層構造に手動でチューニングされたMetalカーネル、ルーティングMoE専用のKV処理、macOS SSD向けのKVディスクプロトコル、内蔵のOpenAI / Anthropic互換HTTPサーバー、コーディングエージェントまでを単一バイナリで提供しています。
下表は、ds4とコミュニティで広く使われる2つの選択肢を、同一の評価軸で対比しています。利用シーンに応じてどれを選ぶべきかの判断材料としてください。
| 項目 | ds4(antirez) | llama.cpp + 汎用GGUF | MLX(Apple公式) |
|---|---|---|---|
| 対応モデル | DeepSeek V4 Flashのみ、専用GGUF | 数百のアーキテクチャ汎用 | 主要モデル多数、Apple Silicon優先 |
| バックエンド | Metal(主)+ CUDA(Linux)、CPUは整合性確認のみ | CPU / CUDA / Metal / Vulkan | Apple Silicon Metalネイティブ |
| 2-bit量子化方式 | 非対称:ルーティング専家にIQ2_XXS+Q2_K、その他はQ8 / F16保持 | 対称(IQ2 / IQ3 / Q4_K_M等) | 4-bit / 8-bit汎用 |
| KVディスク永続化 | --kv-disk-dir でネイティブサポート | 外部ツールが必要 | 組み込みなし |
| 1Mコンテキスト | ネイティブ設計 | 調整次第で可能 | モデル実装依存 |
| OpenAI / Anthropic API | ds4-server に内蔵 | llama.cpp serverまたは別途ラッパー | 別途ラッパー必要 |
| ビルド難易度 | git clone && make | バックエンド選択、依存関係導入が必要 | pip install |
| V4 Flash速度 | 現在のMacで最速の選択肢の1つ | 動作するが最適ではない | 専用チューニングなし |
読み方の指針です。V4 Flashのみを動かしたく、速度と即時利用性を求める場合はds4が現時点での最短経路となります。同じマシン上でLlama / Qwen / Mistralなど複数モデルをローテーションする場合は、llama.cppが依然として代替不能です。MLXはApple Silicon上での研究実験に適しています。3者は二者択一ではなく「主軸 + バックアップ」関係であり、多くのチームはリモートMac上にds4(V4 Flash専用)とllama.cpp(その他オープンモデル用)を併設し、タスクごとにルーティングする構成を採用しております。
下表は、ds4 公式 README に掲載されている実測値、モデルティア、参考価格、適用シーンを単一の表に統合したものです。prefill および generation の数値はすべて、MacBook Pro M3 Max(128GB)および Mac Studio M3 Ultra(512GB)における公式測定結果です。価格は 2026-05 時点のApple Store日本(最上位構成)に基づく目安です。
| ティア | 最低メモリ | 対応Mac(最上位) | 参考価格(円) | prefill(公式) | generation(公式) | 適用シーン |
|---|---|---|---|---|---|---|
| V4 Flash q2 | 96GB(推奨128GB) | MacBook Pro M3/M4/M5 Max 128GB | 約60〜80万円 | 短プロンプト 58.52 t/s;11,709トークン長プロンプト 250.11 t/s(M3 Max 128GB) | 26.68 t/s 短 / 21.47 t/s 長(M3 Max 128GB) | 個人開発者、コーディングエージェント、単一ユーザーの推論 |
| V4 Flash q4 | 256GB以上 | Mac Studio M3 Ultra 256 / 512GB | 約100〜200万円 | 短 78.95 t/s;12,018トークン長プロンプト 448.82 t/s(M3 Ultra 512GB) | 35.50 t/s 短 / 26.62 t/s 長(M3 Ultra 512GB) | 品質上限の追求、長文コンテキスト研究、小規模チーム共有 |
| V4 Flash q2(Ultra加速) | 128GB(推奨512GB) | Mac Studio M3 Ultra 512GB | 約200万円〜 | 短 84.43 t/s;11,709トークン長プロンプト 468.03 t/s | 36.86 t/s 短 / 27.39 t/s 長 | 速度最大化、エージェントスウォーム、長セッション |
| V4 Pro q2 | 512GB(実質下限) | Mac Studio M3 Ultra 512GB 最上位 | 約200万円〜 | コミュニティで再現可能なベンチマークなし(ds4はFlashのみ) | — | ds4経路ではない(複数H100 / H200リグが現実的) |
表の読み方:同一のMac Studio M3 Ultra 512GBは、q2(速度最大化)とq4(品質最大化)のいずれも実行可能です。256GB Ultra構成では q4 起点となり、q2 Ultra加速の数値には届きません。MacBook Pro形態の上限は128GBであり、q4 / Pro の検討対象外となります。
ds4がMetalを主要ターゲットとして位置付けているのは、偶然でもApple贔屓でもなく、DeepSeek V4 Flashのハードウェア要件から逆算した結果です。次の3つが、現状の消費者向けハードウェアにおいて高メモリMacが最適である本質的理由です。
--kv-disk-dir はKVキャッシュをローカルSSDに書き出すことで、1Mコンテキストの会話を起動間で再利用できる設計です。Mac内蔵NVMe SSDの順次読み書きは一般に5〜6 GB/s帯であり、ds4のディスクプロトコルと適合します。一般的なSATA SSD搭載PCではこの方式は実用的ではありません。結論として、高メモリMacは現状「収まる + 動作する + 価格が許容できる」の3条件を同時に満たす唯一の消費者向けハードウェアです。ds4がMetal優先である理由も、ローカルフロンティアモデル推論の波がMacに集中している理由も、ここに帰着いたします。
下記の手順は「git clone から Cursor で V4 Flash と対話できるまで」の最短検証経路です。ローカルの 128GB MacBook Pro、ローカルの 512GB Mac Studio、リモートMacのいずれでも同一手順で実行可能で、リモートの場合のみポートフォワーディングが1行追加されるだけです。各ステップに前提条件と期待結果を明示しております。
git clone https://github.com/antirez/ds4 && cd ds4 && make。Apple SiliconではMetalがデフォルトです。make cpu は実行しないでください。CPUパスはmacOSのカーネルクラッシュを引き起こします。期待結果:./ds4-server および ./ds4 バイナリが生成されます。./download_model.sh q2(128GB機)または ./download_model.sh q4(256GB+機)。スクリプトは huggingface.co/antirez/deepseek-v4-gguf から取得し、curl -C - によるレジューム機能を備えています。q2 は 80.8 GiB、q4 は 153.3 GiB です。./ds4-server --ctx 100000 --kv-disk-dir /tmp/ds4-kv --kv-disk-space-mb 8192。--ctx は最初から1Mに設定せず、100Kから開始することを推奨いたします。長文コンテキストはメモリを大量消費し、スワップが発生すると生成速度が大幅に低下します。curl http://localhost:8080/v1/models を実行し、deepseek-v4-flash が返却されることを確認してください。POST /v1/chat/completions に短いプロンプトを送って生成動作を確認することも推奨いたします。http://<ds4-host>:8080/v1、Model:deepseek-v4-flash、APIキー:任意の文字列(ds4のデフォルトでは検証されません)。ssh -L 8080:localhost:8080 user@mac-host を実行し、Cursorのエンドポイントを http://localhost:8080/v1 に設定します。体感はローカル実行と区別がつきません。詳細は SSHローカルフォワーディング・リモートMac常駐ゲートウェイ運用ガイド をご参照ください。git clone https://github.com/antirez/ds4 cd ds4 ./download_model.sh q2 # 96-128 GB Mac make # Metalデフォルト;make cpu は禁止 ./ds4-server \ --ctx 100000 \ --kv-disk-dir /tmp/ds4-kv \ --kv-disk-space-mb 8192 # リモートMacのds4-serverをローカルから利用: ssh -L 8080:localhost:8080 dev@mac-rental.example.com
「Mac Studio M3 Ultra 256GB / 512GB の自前購入」と「MACCOME のリモートMac高メモリノードの月単位 / 時間単位レンタル」を、3年TCOで対比した表です。購入側はApple Store日本の参考価格と3年後残価5割を仮定し、レンタル側はMACCOMEの 公開料金表 を基に試算(実際の見積はご注文ページにてご確認ください)しています。電力、運用工数、設置スペース等のコストは購入側に含めておりません(実際にはさらに上振れします)。
| 選択肢 | 初期投資 | 3年使用コスト | 3年後残価(5割) | 3年純支出 | 柔軟性 |
|---|---|---|---|---|---|
| 購入:Mac Studio M3 Ultra 256GB | 約100万円 | 約100万円(償却吸収) | +約50万円回収 | 約50万円(中古売却が可能な前提) | なし:q4 / Pro へ移行するには再購入が必要 |
| 購入:Mac Studio M3 Ultra 512GB 最上位 | 約200万円 | 約200万円 | +約100万円回収 | 約100万円 | なし:世代交代で残価が最も大きく下落 |
| レンタル:MACCOME 128GB 月額 | 0円 | 3年 × 12月 × 月額(公開料金参照) | —(残価リスクなし) | 典型的に 最上位購入の30〜50%、停止運用でさらに低減可能 | 高:256 / 512 GB へ随時切替可能 |
| レンタル:MACCOME 時間単位(短期実験) | 0円 | 使用時間分のみ | — | 短期 POC では 極めて低額 | 最大:起動 → 利用 → 終了の自由 |
同等用途における最上位購入の実コストは、「200万円の初期投資 + 3年間の世代交代残価リスク + SSD摩耗の自己負担」です。月額または時間単位レンタルは、これら3つのリスクをすべてプラットフォーム側に移管します。18か月以上にわたり24時間365日のフル稼働が確実でない限り、購入が数学的にレンタルに勝つ条件は限定的です。同じ論理は Mac mini M4 購入 vs レンタル TCOマトリクス にも示されておりますが、本記事では金額が一桁以上大きく、残価リスクも一段と顕著です。
antirez氏がds4で示したのは、次の事実です。284Bパラメータのフロンティアモデルをローカルで動かすことは、ソフトウェア面では既に解決済みの課題となりました。18,404行のCコード、Metal優先、ディスクKV、OpenAI / Anthropic互換エンドポイント、統合コーディングエージェント。残された障壁は96〜512GBというハードウェアの壁であり、個人にとってこれは単に高額であるだけでなく脆弱です。
最上位 Mac Studio Ultra を ds4 用に自前購入する場合、隠れた3つのコストがあります。(a) 60〜200万円の一括投資はキャッシュフローを圧迫し、次世代モデル登場とともに残価が急速に減少します。(b) 1Mコンテキストのセッションを長期間運用するとSSDのTBW書き込み寿命到達は現実的なリスクとなります。(c) 弾力性がゼロです。今日q2、来期q4と試したくても、購入機は1台のみです。本格的なAIエージェントスタックを運用するチーム、または1台のUltraを複数メンバーで共有して様々な実験を回すチームにとって、MACCOMEの高メモリリモートMac(128 / 256 / 512 GBの3ティア)月額または時間単位レンタルがクリーンな解決策となることが多いです。CapexがOpexに置き換わり、残価リスクとSSD摩耗はプラットフォーム側に移り、同一マシンをチームで分割利用できます。
地域別ノード選定は 2026 多地域 Mac ノード選定ガイド をご参照ください。クラウドAPI と ローカル推論を組み合わせる設計は 2026 OpenRouter ランキングとマルチモデルルーティング決定マトリクス でカバーされています。「どこでモデルを動かすか」と「マネージドAPIとどう層を重ねるか」、両方の視点を組み合わせると全体像が完成します。
よくあるご質問
ds4でDeepSeek V4 Pro(Flashではない)を動かせますか?
いいえ。ds4は antirez/deepseek-v4-gguf リポジトリ配下の DeepSeek V4 Flash 専用 GGUF(q2 / q4 / MTP)のみをサポートしており、汎用GGUFローダーではありません。V4 Proは総パラメータ1.6T、有効49Bで、q2量子化でも512GBクラスのユニファイドメモリ、または複数H100 / H200のGPUリグが必要です。現時点でds4でV4 Proを動かす再現可能なコミュニティ手順は存在しておりません。短期にPro評価が必要な場合は、注文ページ で最上位Ultra構成を時間単位でレンタルし、llama.cpp によるマルチGPU プロトコルで評価する方法をご検討ください。
q2量子化の品質低下は実用上認識できますか?
ds4のq2は非対称量子化です。ルーティングMoEエキスパートのみIQ2_XXS(gate / up)+ Q2_K(down)で積極圧縮し、shared experts、attention proj、router、embed、indexerはQ8_0 / F16 / F32精度を保持します。独立した18タスク評価では、ツール呼び出しおよびコード生成においてフロンティアAPIに近い挙動を示しました。高精度数学推論やマルチモーダル用途では q4(256GB以上)への移行を推奨いたします。
リモートMacで動かすds4にCursorから接続する場合、レイテンシは問題になりますか?
ds4-serverはOpenAIおよびAnthropic互換のHTTPエンドポイントを公開しており、SSHポートフォワーディングまたはTailscale経由で接続できます。同一リージョン内のRTTは一般に5〜30msで、ストリーミングのトークン出力ではほぼ知覚できません。クロスリージョンでは最初のトークンに約150msが追加されますが、その後のストリーミング体験はローカルとほぼ同等です。地域ペアリングの詳細は ヘルプセンター をご参照ください。
なぜllama.cppやMLXではなくds4を選ぶのですか?
llama.cppとMLXは数百のモデルアーキテクチャをカバーする汎用ランタイムです。ds4はDeepSeek V4 Flashの層構造専用に書かれたMetalグラフ実行エンジンで、手動チューニングされたカーネル、ルーティングMoE専用のKV処理、ディスクKVプロトコル、プロンプトレンダリング、ツール呼び出しまでこの単一モデル向けに最適化されています。トレードオフは単一モデル限定ですが、128GB MacでV4 Flashを快適に動かす最短経路です。多モデル運用ではリモートMacにds4とllama.cppを併設し、タスクごとにルーティングする構成が一般的です。