멀티 모델 라우팅 구성을 설계하실 때 OpenRouter Rankings 는 Kimi K2.6 이 Claude Sonnet 4.6 을 누르고 1위로 올라섰고 중국 모델이 45%+ 의 토큰 점유율을 차지함을 보여 줍니다. 동시에 Anthropic 은 여전히 토큰 12.3% 로 매출 46.3% 를 차지합니다. 본 글은 네 가지 질문에 답합니다. (1) 경쟁 구조는 “중국 전면 압승” 인가, “토큰-매출 가위 격차” 인가, (2) Top 10 모델의 실제 포지션과 단가, (3) 코딩・롤플레이・법무・헬스/아카데미아・마케팅 수직 영역 리더의 선택 기준, (4) OpenClaw 또는 자체 게이트웨이에서 ‘메인 + 폴백’ 라우팅을 실제로 구현하는 단계입니다. OpenClaw 멀티 프로바이더 라우팅과 프라이빗 모델 연동과 보완적으로, 본 글은 랭킹 데이터 → 벤더 경쟁 → 라우팅 결정만 다룹니다.
2026 년 LLM 시장은 “단일 최강” 서사에서 벗어나 다극 라우팅과 토큰-매출 가위 격차 의 시대로 진입했습니다. Anthropic 은 컴플라이언스・금융・복잡 추론 등 고단가 영역을 사수하고, OpenAI 는 OpenRouter 에서는 약하지만 ChatGPT 와 직계약에서 강세를 유지합니다. Google 은 Gemini Flash Lite ~ Pro 로 전 가격대를 커버하고, xAI 는 법무 등 수직에서 자리를 잡습니다. 중국 진영(Xiaomi MiMo, Moonshot Kimi, DeepSeek, Alibaba Qwen, MiniMax, Z.ai GLM, StepFun)은 2.5-8 배의 가격 차, 오픈 또는 오픈웨이트 전략, 장문 컨텍스트로 코딩・배치・롤플레이를 구조적으로 흡수하고 있습니다. 이 그림을 정확히 읽는 것이 모든 라우팅 결정의 전제입니다.
| MACCOME 관련 장문 | 본 글이 다루는 범위 | 본 글이 중복하지 않는 범위 |
|---|---|---|
| OpenClaw 멀티 프로바이더 라우팅과 페일오버 | 랭킹 시각의 전략 매트릭스 | provider 문법, 429 처리, 로그 필드 전수표 |
| 프라이빗 모델 Ollama/vLLM 연동 | 오픈웨이트(DeepSeek, Kimi, Qwen) 의 폴백 포지션 | 셀프 호스트 자원 예산과 라이프사이클 |
| 게이트웨이 헬스 프로브와 롤링 업데이트 | 라우팅 계층과 게이트웨이 가용성 연동 원칙 | Compose/K8s 프로브 파라미터 전수표 |
| 전용 원격 Mac 의 SSH 상주 게이트웨이 | 라우팅 출구를 독점 머신에 두는 안정성 이득 | 포트포워딩, launchd, autossh 세부 설정 |
라우팅 결정은 동일한 데이터셋 위에 서야 합니다. 다음 표는 2026 년 4~5 월 OpenRouter 공개 데이터를 벤더별로 집계한 것입니다. 주간 토큰 점유율, 공식 단가 기준 가중 매출 점유율, 평균 단가($/M)를 동시에 보면 “양이 많고 싸다”, “양이 적고 단가가 높다”, “양과 단가 모두 상승” 의 세 가지 경쟁 모드를 구분할 수 있습니다.
| 벤더 | 토큰 점유율 | 매출 점유율 | 평균 단가 $/M | 주력 모델 |
|---|---|---|---|---|
| Anthropic | 12.3% | 46.3% | $7.95 | Claude Opus 4.7 / Sonnet 4.6 |
| 13.3% | 7.0% | $1.12 | Gemini 3 Flash Preview / 3.1 Pro | |
| Xiaomi(중국) | 13.0% | 9.0% | $1.47 | MiMo-V2-Pro |
| Alibaba/Qwen(중국) | 12.7% | 4.6% | $0.77 | Qwen 3.6 Plus |
| OpenAI | 9.8% | 24.2% | $5.25 | GPT-5.5 / GPT-5.4 |
| MiniMax(중국) | 9.5% | 2.1% | $0.48 | MiniMax M2.7 / M2.5 |
| DeepSeek(중국) | 6.3% | 0.9% | $0.30 | DeepSeek V3.2 / V4 Pro |
| Moonshot AI(중국) | 약 5% | 약 2% | $1.50 | Kimi K2.6 |
| Z.ai/Zhipu(중국) | 5.6% | — | $0.80-1.20 | GLM-5 / GLM-5 Turbo |
| StepFun(중국) | 5.3% | — | 약 $0.50 | Step 3.5 Flash |
3 시점을 함께 보면 경쟁 모드가 3 가지로 분리됩니다. (a) 양과 가격이 동반 상승 하는 Anthropic 은 높은 단가로 매출 점유율을 흡수합니다. (b) 양이 많고 가격이 낮은 DeepSeek 와 MiniMax 는 $0.30~0.50 으로 배치 워크로드를 휩쓸고 있습니다. (c) 중간대 는 Google 과 Xiaomi 가 균형을 잡습니다. OpenAI 는 매출 24.2% 를 유지하면서 토큰은 9.8% 로 줄어드는 위치로, 진짜 채널은 ChatGPT 와 엔터프라이즈 직계약임을 시사합니다.
이를 라우팅 언어로 옮기면 “지불 여력이 가장 큰 작업은 Anthropic / OpenAI 로, 대량 배치는 중국 진영으로, 중간의 탄력 밸런서는 Google 로” 라는 구조가 됩니다.
다음 두 표는 주간 토큰 Top 10 과 5 개 주요 수직 영역의 #1 모델입니다. 라우팅 계층의 기본 큐와 폴백 리스트 출발점으로 사용 가능합니다.
| 순위 | 모델 | 벤더 | 주간 토큰 | 포지션 |
|---|---|---|---|---|
| 1 | Kimi K2.6 | Moonshot(중국) | 1.36T | MoE 1T/32B, 장기 에이전트 스웜 |
| 2 | Claude Sonnet 4.6 | Anthropic(미국) | 1.35T | 1M 컨텍스트, 코딩 주력, 엔터프라이즈 |
| 3 | DeepSeek V3.2 | DeepSeek(중국) | 1.31T | DSA 희소 어텐션, 초저가, 롤플레이 1위 |
| 4 | Claude Opus 4.7 | Anthropic(미국) | 1.14T | Anthropic 플래그십, 복잡 추론 |
| 5 | Gemini 3 Flash Preview | Google(미국) | 1.06T | 1M 컨텍스트, 멀티모달, 헬스/아카데미아 |
| 6 | MiniMax M2.7 | MiniMax(중국) | 806B | 장문 컨텍스트의 가성비 |
| 7 | Grok 4.1 Fast | xAI(미국) | 721B | 2M 컨텍스트, 법무 #1 |
| 8 | Claude Opus 4.6 | Anthropic(미국) | 699B | 전 세대 플래그십, 안정 폴백 |
| 9 | MiniMax M2.5 | MiniMax(중국) | 698B | 코딩 가성비, $0.30/$1.20 |
| 10 | Step 3.5 Flash | StepFun(중국) | 673B | 빠르고 저렴, 배치용 |
| 수직 영역 | 리더 | $/M(in/out) | 승리 요인 |
|---|---|---|---|
| 코딩 | GPT-5.5 / Claude Opus 4.7 | $5/$30; $5/$25 | SWE-bench 최상, 고가치 작업 |
| 롤플레이 | DeepSeek V3.2(40.2%) | 약 $0.30 | 가격 압도와 커뮤니티 |
| 법무 | Grok 4.1 Fast | 중가 | 2M 컨텍스트로 장문 문서 강세 |
| 헬스/아카데미아 | Gemini 3 Flash Preview | $0.30-$1 | 멀티모달 + 장문 컨텍스트 + 지식 그래프 |
| 마케팅 | Gemini 2.5 Flash Lite | $0.10/$0.40 | 대량 초안의 초저단가 |
코딩 작업에서 가격과 성능은 선형 관계가 아닙니다. 다음 표는 2026-05 시점 주요 모델을 SWE-bench Verified 와 $/M 동일 축에 배치하여, “정확도 1% 추가에 얼마를 더 내는가” 라는 한계 비용 관점에서 결정할 수 있게 합니다.
| 모델 | SWE-bench Verified | Input $/M | Output $/M | Context | 1% 당 한계 비용(in/out) |
|---|---|---|---|---|---|
| GPT-5.5 | 88.7% | $5.00 | $30.00 | 200K | 최상 기준선 |
| Claude Opus 4.7 | 87.6% | $5.00 | $25.00 | 1M | 출력 17% 절감 |
| Claude Opus 4.6 | 80.8% | $5.00 | $25.00 | 1M | -7pp, 가격 동일 |
| Gemini 3.1 Pro | 80.6% | $2.00 | $12.00 | 1M | -8pp, 60%/60% 절감 |
| DeepSeek V4 Pro(Max) | 80.6% | $0.435 | $0.87 | 1M | -8pp, 91%/97% 절감 |
| MiniMax M2.5 | 80.2% | $0.30 | $1.20 | 1M | -8.5pp, 94%/96% 절감 |
| Kimi K2.6 | 80.2% | $0.75 | $3.50 | 128K | -8.5pp, 85%/88% 절감 |
| GPT-5.4 | 78.2% | $2.50 | $15.00 | 200K | -10.5pp, 50%/50% 절감 |
| MiMo-V2-Pro | 78.0% | $1.00 | $3.00 | 1M | -10.7pp, 80%/90% 절감 |
| DeepSeek V4 Flash | 약 79% | $0.14 | $0.28 | 1M | -9.7pp, 97%/99% 절감 |
경계 해석: GPT-5.5(88.7%)에서 80% 대로 내리면 정확도가 약 8pp 떨어지지만 output 단가는 $30/M 에서 $0.87-$3.50/M 로 떨어져 85-97% 의 비용을 줄일 수 있습니다. 이것이 “메인 + 폴백” 이중 라인의 데이터 근거입니다. 고가치 작업은 프리미엄 모델로 만점 확보, 배치와 회귀 작업은 DeepSeek V4 Pro 또는 Kimi K2.6 으로 80% 정확도를 1/10 비용에 확보합니다.
다음 표는 멀티 모델 라우팅을 업무 우선순위 별로 4 가지 전략으로 정리했습니다. 각 행에 메인 / 1차 폴백 / 2차 폴백과 발동 조건을 명시했습니다. OpenRouter, OpenClaw, 자체 게이트웨이의 provider 설정 시작점으로 그대로 사용할 수 있습니다.
| 전략 | 메인 | 1차 폴백 | 2차 폴백 | 발동 조건 |
|---|---|---|---|---|
| 품질 우선(엔터프라이즈, 금융, 추론) | Claude Opus 4.7 | GPT-5.5 | Gemini 3.1 Pro | 컴플라이언스 심사, 핵심 의사결정, 장기 체인 추론 |
| 비용 우선(배치, 사내 도구) | DeepSeek V4 Pro | MiniMax M2.5 | DeepSeek V4 Flash | 티켓, 요약, 회귀 테스트 |
| 컴플라이언스 우선(데이터 거주, 규제) | 동일 리전 Gemini / Claude | 동일 리전 Qwen / Kimi | 셀프 호스트 Ollama / vLLM | EU GDPR, 규제 금융, 정부 데이터 |
| 장문 컨텍스트 우선(코드베이스, 장문 리포트) | Gemini 3.1 Pro(1M) | Grok 4.1 Fast(2M) | Claude Sonnet 4.6(1M) | 레포 전체 분석, 장기 계약, 연차 보고서 |
4 가지 전략은 상호 배타적이 아니며, 같은 팀의 서로 다른 서비스가 다른 행을 사용할 수 있습니다. 게이트웨이에서 x-task-tier 헤더로 태그를 붙이고, 개발자 어시스턴트와 코드 리뷰는 품질 우선, 커밋 메시지 생성, 요약, 사내 검색은 비용 우선으로 분배합니다. 폴백 큐는 메인이 429 나 타임아웃을 반환할 때만 활성화합니다.
x-task-tier(critical/standard/bulk/experimental) 를 부여합니다. critical 은 품질 우선, bulk 는 비용 우선, experimental 은 신모델 A/B 라우팅에 사용합니다.routes 로 작성합니다. OpenRouter 는 route 와 fallback_models 를 함께 사용합니다.x-provider-used 와 x-cost-cents 응답 헤더를 기록하고 일 단위로 대조합니다. “저가 모델 + 3 회 재시도” 가 “프리미엄 1 회” 보다 비싸지는 사고를 막습니다.2026 년 하반기에는 3 가지 구조적 힘이 라우팅 지형을 계속 바꿔 갑니다. (a) 가격 하단은 더 내려갈 여지가 있습니다. DeepSeek V4 Flash 는 input 을 $0.14/M 까지 낮췄고 Step 3.5 Flash, GLM-5 Turbo 도 더 공격적인 가격대를 시험 중입니다. (b) 컨텍스트 윈도우 경쟁이 이어집니다. Grok 4.1 Fast 는 2M, Claude 와 Gemini 는 1M, Kimi 는 128K 입니다. 장문 문서와 코드베이스의 변곡점은 1M-2M 사이입니다. (c) 오픈 vs 클로즈드 경계는 오픈 쪽으로 기울고 있습니다. DeepSeek, Qwen, Kimi 의 오픈웨이트는 기업이 OpenRouter API 와 자체 호스팅 사본을 자유롭게 오갈 수 있게 합니다. 5 월 CNBC 의 “9 배 비용 격차” 보도와 Anthropic / OpenAI 의 IPO 평가 압력이 더해지며 이 경계는 계속 오픈으로 기울 것입니다.
이를 운영으로 옮기면 “태깅 + 메인 + 폴백 + 리뷰” 의 4 단계로 압축됩니다. 복잡해 보여도 실제는 단순합니다. 다만 안정 운영하려면 게이트웨이와 멀티 프로바이더 계층 자체가 노트북을 닫아도 끊기지 않는 환경 에 있어야 합니다. 이것이 7x24 멀티 모델 라우팅의 물리적 기준선입니다.
게이트웨이와 프로바이더 라우팅을 노트북이나 공용 워크스테이션에서 계속 돌리면 3 가지 숨은 비용을 감수해야 합니다: 슬립으로 critical 경로가 일시 단절되는 비용, 로컬 네트워크 지터로 거짓 폴백이 잦아지는 비용, 그리고 토큰과 로그가 여러 머신에 분산되어 분기 리뷰가 어려워지는 비용입니다. 7x24 가동, 메인+폴백 라우팅, 티켓화된 런북 이 필요한 프로덕션 게이트웨이는 OpenClaw 나 자체 게이트웨이를 MACCOME 의 Mac mini(M4 / M4 Pro) 와 6 개 리전 탄력 임대 위에 두는 편이 노트북에서 폴백 큐와 씨름하는 것보다 총비용이 보통 더 낮습니다. 공개 요금은 멀티 리전 노드 요금 가이드 에서, 토폴로지는 SSH 상주 게이트웨이 런북 에서 확인할 수 있습니다.
자주 묻는 질문
중국 모델이 45%+ 점유율을 차지했다면 저가 모델로 완전 이전해도 됩니까?
단순히 그렇지는 않습니다. 45% 점유율은 코딩, 배치 처리, 장문 컨텍스트 작업이 주도한 것이며 Anthropic 은 여전히 12.3% 토큰으로 매출 46.3% 를 차지합니다. “메인 + 폴백” 이중 라인으로 운영하시고, critical 작업은 Claude Opus 4.7 / GPT-5.5, bulk 작업은 Kimi K2.6 또는 DeepSeek V4 Pro 로 라우팅하시기 바랍니다. 토폴로지는 요금 페이지 를 참고하세요.
OpenRouter 공개 데이터의 신뢰성은 어떻게 자체 검증합니까?
세 가지 소스를 비교합니다: OpenRouter Rankings, 제 3 자 분석(CodeSOTA, digitalapplied 등), 자사 게이트웨이 로그입니다. 세 추세가 일치하면 의사결정에 사용 가능하며 괴리가 있을 경우 자사 로그를 최종 기준으로 삼습니다. 도입 상담은 고객 센터 에서 도와 드립니다.
Claude Opus 4.7 이나 GPT-5.5 같은 고가 모델이 여전히 대체 불가능한 시나리오는 무엇입니까?
세 가지가 있습니다. (1) 복잡한 다단 추론과 장기 도구 호출 체인(87%+ SWE-bench 가 있어야 1 회 통과가 안정적), (2) 엔터프라이즈 컴플라이언스와 금융 감사(Anthropic 안전 가드레일과 엔터프라이즈 SLA), (3) 1M 컨텍스트의 멀티모달 + 구조화 문서 처리입니다. 이 시나리오에서는 “정확도 1% 추가 비용” 이 “저가 모델 재시도 + 엔지니어 재작업” 보다 분명히 저렴합니다.