GPT-5.6 Sol・Terra・Luna 正式発表:ベンチマーク・価格・アクセス制限を総合解説(2026)

約 17 分で読了 · MACCOME

誰が読むべきか: コーディングエージェントの選定や API 予算を担う開発チーム・技術責任者です。本記事の結論: 2026年6月26日に OpenAI が発表した GPT-5.6 系列は、旗艦 Sol が TerminalBench 2.1 で 91.9% 首位、CTF 命中率 96.7%、7月の Cerebras 750 token/s 加速を実現しますが、米国政府審査により現時点では約 20 社のパートナーのみがプレビュー可能です。構成: 発表背景と政策 → 3モデルと価格 → ベンチマーク → Mythos 5 比較 → アクセスタイムライン → 六段階実装 → FAQ。

GPT-5.6 がエンジニアリングチームに与える6つの現実的圧力

6月は AI「スーパーリリース月」のはずでしたが、三大ラボのフラッグシップが相次いで制限を受けています(Claude Fable 5 輸出規制の解説参照)。その中で GPT-5.6 の技術的飛躍とアクセス制限は、本番環境の計画に同時に影響します。

  1. コーディングエージェントのランキングが再編されます。 Sol は 6月9日に首位に立った Claude Mythos 5(88.0%)をわずか17日で TerminalBench 2.1 から押し下げ、Ultra マルチエージェントモードで 91.9% を記録しました。
  2. 価格階層がルーティング戦略を変えます。 Terra は GPT-5.5 相当の性能でコスト 50% 削減、Luna は Sol より 80% 安価ですが、同様に「高」サイバーセキュリティ評価を受けています。
  3. 政府審査によるアクセス空白が生じています。 トランプ大統領令(6月2日)後、OpenAI は広域公開前の安全審査に応じる必要があり、これは米国政府が初めてフロンティアモデルの限定公開を正式に要求した事例です。
  4. 競合のオフラインと延期が不確実性を拡大します。 Anthropic Mythos 5 / Fable 5 は6月12日に輸出規制でオフライン、Google Gemini 3.5 Pro は7月に延期——マルチモデルルーティングのバックアップリストを書き直す必要があります。
  5. 速度次元が UX を書き換えます。 7月から Cerebras 加速版 Sol は 750 token/s に達し、現行フラッグシップの 50–150 token/s と比べ 5〜15 倍の飛躍です。
  6. 安全能力とコンプライアンス責任が同時に上昇します。 3モデルすべてが OpenAI の「高」サイバーセキュリティ分類に該当し、企業はアカウントレベル審査とエージェント制御面の安定性のバランスを取る必要があります。

GPT-5.6 とは:Sol・Terra・Luna の太陽系命名体系

2026年6月27日(日本時間)、OpenAI は GPT-5.6 系列を正式発表し、初めて太陽系天体にちなんだ3層体系を導入しました。Sol(太陽)がフラッグシップ、Terra(地球)がバランス型、Luna(月)が軽量版です。GPT-5.5 以降最大のモデルファミリー更新であり、エントリーレベルの Luna を含む全ティアが「高」サイバーセキュリティリスク評価に該当した初のシリーズでもあります。

OpenAI CEO サム・アルトマンは政府審査に協力しつつ次のように述べています。「このような政府アクセスプロセスが長期的な業界標準になるべきではない。最高のツールが、それを必要とするユーザー、開発者、企業、サイバー防衛者、グローバルパートナーから遠ざけられてしまう。」

モデルポジション入力価格出力価格コンテキストハイライト
GPT-5.6 Solフラッグシップ$5 / 100万トークン$30 / 100万トークン約 1.5MTerminalBench 2.1 世界1位(91.9%)
GPT-5.6 Terraバランス / 主力$2.50 / 100万トークン$15 / 100万トークン約 1.5MGPT-5.5 相当、コスト50%削減
GPT-5.6 Luna軽量 / 高速$1 / 100万トークン$6 / 100万トークン約 1.5M高頻度タスク向け、Sol より80%安価
info

現状:米国政府の要求により、現在は審査済みの約 20 社のパートナーのみが API と Codex 経由でプレビュー可能です。数週間以内の全面公開が予想され、Polymarket では「7月31日までに全面リリース」の確率が約 87% と予測されています。

GPT-5.6 Sol:Max モードと Ultra モード

Sol は OpenAI 史上最強のモデルで、高難度コーディング、長鎖サイバーセキュリティ研究、多段階エージェントワークフロー向けに設計されています。

  • Max モード:推論に追加時間を与え、速度を犠牲にして精度を優先します。正確性が最優先のシナリオに適しています。
  • Ultra モード:複数の並列サブエージェントがタスクを分担し、結果を統合する画期的なマルチエージェントアーキテクチャです。TerminalBench 91.9% の中核ですが、トークン消費が大幅に増加します。

GPT-5.6 Terra と Luna

Terra は大規模カスタマーサポート、社内ツール、文書分析などのエンタープライズ高頻度シナリオ向けです。Luna は要約、ドラフト作成、日常自動化に最適化されており、サイバーセキュリティと生物学の両分野で High 評価を獲得した初の非フラッグシップモデルでもあります。

ベンチマーク結果:TerminalBench、CTF、長鎖エージェント

コーディング:TerminalBench 2.1

89 の複雑なコマンドライン計画問題で、多段階ツール呼び出し、反復修正、タスク調整をテストします。

モデルスコアモード
GPT-5.6 Sol91.9%Ultra(マルチエージェント)
GPT-5.6 Sol88.8%標準
Claude Mythos 588.0%標準
GPT-5.583.4%標準
Gemini 3.1 Pro Preview70.7%標準

長鎖エージェント:Agent's Last Exam

モデルタスク完了率(コードモード)
GPT-5.6 Sol50.9%(50%突破の唯一のモデル)
GPT-5.6 LunaGPT-5.5 をわずかに上回る

サイバーセキュリティ:CTF と ExploitBench

GPT-5.6 は OpenAI 史上初めて、3モデルすべてが「高」サイバーセキュリティリスク評価に該当した製品系列です。

モデルCTF 命中率
Sol96.7%
Terra91.84%
Luna85.19%

ExploitBench:Sol は Anthropic Mythos Preview とほぼ同等の性能を、出力トークン約3分の1で達成し、エンタープライズセキュリティ研究のコストを大幅に削減します。

warning

安全に関する注意:OpenAI のテストでは、Sol は Chromium と Firefox コードベースで脆弱性とエクスプロイトプリミティブを識別できますが、完全に機能するエクスプロイトチェーンを自律的に構築することはできません。「Cyber Critical」閾値以下に留まっています。全系列にリアルタイム悪用分類器、アカウントレベル審査、70万 A100 相当 GPU 時間の自動レッドチーミング、外部セキュリティ機関による審査が組み込まれています。

生命科学:GeneBench v1 と HealthBench

  • GeneBench v1:Sol はより少ないトークンで GPT-5.5 に匹敵または上回る
  • HealthBench Professional:Sol は 60.5 点、GPT-5.5 より 8.7 点向上

7月 Cerebras 加速:750 token/s の速度革命

2026年7月から、GPT-5.6 Sol は Cerebras ハードウェア加速プラットフォーム経由で一部のエンタープライズ顧客に展開され、生成速度は最大 750 token/s に達します。現行のほとんどのフラッグシップは 50–150 token/s です。リアルタイムコーディングアシスタントとストリーミング AI アプリケーションにとって、カテゴリを変えるレベルの向上です。初期アクセスは選定されたエンタープライズ顧客に限定されます。

政策の波紋:政府が AI 公開に介入する新時代

2026年6月2日、トランプ大統領は行政命令に署名し、米国政府機関がフロンティア AI モデルの公開前に最大30日間のアクセス権を得て国家安全保障上の懸念を審査できるようにしました。6月26日、ホワイトハウス科学技術政策局(OSTP)と国家サイバー長官室(ONCD)の調整のもと、OpenAI は GPT-5.6 を約20社の事前承認された「信頼パートナー」に限定することに同意しました。

企業モデルステータス
OpenAIGPT-5.6 Sol/Terra/Luna約20社パートナー限定プレビュー
AnthropicClaude Fable 5 / Mythos 56月12日 輸出規制で強制オフライン
GoogleGemini 3.5 Pro7月に延期

GPT-5.6 Sol 対 Claude Mythos 5:コーディングとセキュリティ研究の比較

次元GPT-5.6 SolClaude Mythos 5
TerminalBench 2.191.9%(Ultra)/ 88.8%88.0%
ExploitBenchMythos Preview 同等、トークン約1/3データ非公開
入力価格$5 / M元 $10/M(オフライン)
可用性限定プレビュー → 数週間で全面公開輸出規制でオフライン
コンテキスト約 1.5M トークン200K トークン

結論:Sol はコーディングとサイバーセキュリティの特定ベンチマークで Mythos 5 を上回り、半額で同等のセキュリティ研究能力を提供します。ただし Fable 5 は SWE-bench Pro などで優位な可能性があり、完全な System Card 公開後に再比較が必要です。発表前のリーク情報は6月ダブルリリース噂のまとめをご参照ください。

GPT-5.6 へのアクセス方法とユースケース

  • 現段階(2026年6月):審査済み約20社のパートナーのみが API と Codex 経由でアクセス可能。一般ユーザーは ChatGPT では利用できません。
  • 近日公開(2026年7月予定):ChatGPT 全面展開(Plus/Pro 優先)、公開 API、Cerebras 加速版 Sol(最大 750 token/s)。
ニーズ推奨モデル
複雑なコード生成、デバッグ、多段階エージェントSol(最難タスクは Ultra)
エンタープライズ文書分析、CS、大規模 API 呼び出しTerra
高頻度要約、ドラフト、日常自動化Luna
予算制約下で GPT-5.5 級の性能Terra(コスト50%削減)
超低遅延のリアルタイムアプリ(7月以降)Sol on Cerebras

六段階実装:全面公開前にエンジニアリングチームが取るべき行動

  1. エージェント選定マトリクスを再実行します。 Sol の Ultra モードと Terra の価格は Codex 対 Claude Code / Cursor のコストパフォーマンスを変える可能性があります。4社比較記事で API 請求に反映される前にロックインリスクを再評価してください。
  2. Sol / Terra / Luna をタスク別にルーティングします。 複雑なエージェントは Sol Ultra、高ボリューム業務は Terra、軽量自動化は Luna——全量 Sol はトークン予算を圧迫します。
  3. 政府審査と全面公開のタイムラインを追跡します。 Polymarket は7月31日までの全面公開を 87% の確率で予測。米国サイバー行政命令フレームワークは約7月2日に確定予定(30日間の窓)です。
  4. 競合オフラインに備えたバックアップルートを準備します。 Mythos 5 はオフライン、Gemini 3.5 Pro は延期——Fable 5 代替案を参考に LiteLLM マルチプロバイダー冗長化を構築してください。
  5. Cerebras 低遅延パスを確保します。 7月以降の 750 token/s はリアルタイムアシスタント UX を書き換えます。速度に対価を払う価値のあるワークフローを事前に評価してください。
  6. エージェント制御面の 7×24 安定ノードを確保します。 モデル API の変動とクォータイベントは Sol 発表で消えません。OpenClaw Gateway、CI トリガー、MCP 長時間接続にはスリープしない専用サーバーが必要です。6月値下げまとめでマルチプロバイダールーティングを参照してください。

三つのハードデータ(EEAT)

  • 91.9% TerminalBench 2.1(Ultra)——Sol がマルチエージェントアーキテクチャで世界首位。17日で Mythos 5 を交代。標準モードでも 88.8%。
  • 96.7% CTF 命中率(Sol)——全3モデルが「高」サイバーセキュリティ分類。OpenAI は完全な exploit チェーンの自律構築は不可と確認。
  • 750 token/s(Cerebras、2026年7月)——現行フラッグシップ 50–150 token/s の 5〜15 倍。Polymarket は7月31日までの全面公開を 87% と予測。

結論:能力・効率・政策の三重突破

GPT-5.6 は能力(Sol Ultra が TerminalBench 首位)、効率(ExploitBench で3分の1トークン)、速度(Cerebras 750 token/s)の三つの次元で OpenAI の突破を示しています。しかし今回の公開は、米国政府が初めてフロンティアモデルの公開プロセスに介入した歴史的先例でもあります。

コーディングエージェントと API 製品を本番で提供するチームにとって、全面公開前の三つのギャップは依然として明確です。一般開発者はまだ GPT-5.6 にアクセスできない、競合オフラインによるルーティングの不確実性、エージェント制御面の 7×24 オンライン維持。スリープするノート PC や単一プロバイダー API にすべてを賭けると、このモデル競争の変動に晒されます。クォータと政策イベントを乗り越えてオンラインを維持する本番エージェントと Gateway 環境には、MACCOME Mac mini(M4 / M4 Pro)専有クラウドホストがモデル API スタックの下でより安定した層となることが多いです。公開プランはレンタル料金ページ、接続手順はヘルプセンターをご参照ください。

よくある質問

GPT-5.6 は今 ChatGPT で使えますか?

一般ユーザーはまだ利用できません。現在は政府審査を経た約20社のパートナーのみが API と Codex 経由でアクセス可能です。数週間以内(2026年7月)に ChatGPT Plus/Pro と公開 API への全面展開が予想されます。

GPT-5.6 Sol の Ultra モードとは何ですか?

Ultra モードは複雑なタスクを分解し、複数の並列サブエージェントに配分して最終的に統合出力します。TerminalBench 2.1 で 91.9% を記録した中核アーキテクチャですが、トークン消費が大幅に増加するため、本当に複雑なコーディングとエージェントワークフロー向けです。

GPT-5.6 の公開が政府制限されている理由は?

2026年6月2日のトランプ大統領令により、米国政府はフロンティアモデルの広域公開前に最大30日間の安全審査アクセスを求められます。ホワイトハウス OSTP と ONCD の調整のもと、OpenAI は GPT-5.6 を約20社の信頼パートナー限定プレビューに制限しました。

Cerebras 上の GPT-5.6 Sol はどのくらい速いですか?

2026年7月から、一部のエンタープライズ顧客向けに Cerebras ハードウェア加速版 Sol が展開され、出力速度は最大 750 token/s に達します。現行フラッグシップの 50–150 token/s と比べ 5〜15 倍です。

GPT-5.6 Sol は Claude Mythos 5 よりコーディングに向いていますか?

TerminalBench 2.1 では Sol(Ultra)が 91.9% で Mythos 5 の 88.0% を上回り、入力価格は $5/M(Mythos 5 は元 $10/M で現在オフライン)です。ただし SWE-bench Pro などでは Mythos 5 が優位な可能性があり、完全な System Card 公開後に再比較が必要です。

GPT-5.6 全面公開を待つ間、エンジニアリングチームは何をすべきですか?

マルチモデルルーティングの構築、API クォータイベントの追跡、OpenClaw Gateway とコーディングエージェント向けの 7×24 安定ノードの確保を推奨します。MACCOME Mac mini クラウドホストがエージェント制御面の常駐運用に適しています。公開プランはレンタル料金ページをご参照ください。