2026 OpenRouter 최신 랭킹 해설: Kimi K2.6 1위, 중국 모델 45% 점유율과 Claude/GPT-5/Gemini 고단가 시대의 멀티 모델 라우팅 결정 매트릭스

약 19 분 읽기 · MACCOME

멀티 모델 라우팅 구성을 설계하실 때 OpenRouter Rankings 는 Kimi K2.6 이 Claude Sonnet 4.6 을 누르고 1위로 올라섰고 중국 모델이 45%+ 의 토큰 점유율을 차지함을 보여 줍니다. 동시에 Anthropic 은 여전히 토큰 12.3% 로 매출 46.3% 를 차지합니다. 본 글은 네 가지 질문에 답합니다. (1) 경쟁 구조는 “중국 전면 압승” 인가, “토큰-매출 가위 격차” 인가, (2) Top 10 모델의 실제 포지션과 단가, (3) 코딩・롤플레이・법무・헬스/아카데미아・마케팅 수직 영역 리더의 선택 기준, (4) OpenClaw 또는 자체 게이트웨이에서 ‘메인 + 폴백’ 라우팅을 실제로 구현하는 단계입니다. OpenClaw 멀티 프로바이더 라우팅프라이빗 모델 연동과 보완적으로, 본 글은 랭킹 데이터 → 벤더 경쟁 → 라우팅 결정만 다룹니다.

OpenRouter 랭킹을 잘못 읽는 6 가지 패턴

  1. 토큰 점유율만 보고 매출 점유율을 보지 않는 경우: 중국 진영은 토큰 45%+ 이지만 Anthropic 단독으로 토큰 12.3% 에 매출 46.3%, 평균 단가 $7.95/M 을 차지합니다. OpenAI 도 토큰 9.8% 에 매출 24.2%, $5.25/M 입니다. 점유율만으로 “저가 모델로 즉시 전환” 이라 결론짓는 것은 위험합니다.
  2. Top 1 을 만능으로 간주하는 경우: 주간 토큰 1위 Kimi K2.6(1.36T)은 에이전트 스웜과 장문 컨텍스트, 배치 처리가 주축입니다. 같은 주 2위 Claude Sonnet 4.6(1.35T)은 코딩과 엔터프라이즈 통합이 주력이므로 챔피언 모델이 그대로 자신의 워크로드에 맞다고 단정할 수 없습니다.
  3. 벤치마크 점수만으로 결정하는 경우: SWE-bench Verified 기준 GPT-5.5 88.7%, Claude Opus 4.7 87.6%, Gemini 3.1 Pro 80.6%, DeepSeek V4 Pro 80.6%, Kimi K2.6 80.2% 입니다. 점수 차는 작아도 $/M 단가는 5~10 배까지 벌어집니다. 점수 정렬만 따르면 예산이 무너집니다.
  4. 수직 영역 챔피언을 전 영역으로 확장하는 경우: DeepSeek V3.2 가 롤플레이 40.2% 를 독점하고, Grok 4.1 Fast 가 법무 #1, Gemini 3 Flash Preview 가 헬스와 아카데미아, Gemini 2.5 Flash Lite 가 $0.10/$0.40 으로 마케팅을 장악합니다. 각 영역 챔피언은 국지적이며 단순 복제하면 안 됩니다.
  5. 18 개월 구조 전환의 텐션을 무시하는 경우: 2024-10 1.2% 였던 중국 점유율은 2025-03 10%, 2025 Q3 25%+, 2026-04 45%, 5 월 일부 측정치 60%+ 까지 올랐습니다. 안정 경쟁이 아니라 구조적 재편이므로 라우팅 전략에는 향후 6 개월치 탄력성이 필요합니다.
  6. OpenRouter 를 전체 시장의 거울로 보는 경우: OpenRouter 는 “서드파티 라우터를 거치는 개발자 트래픽” 을 반영합니다. OpenAI 의 주력은 ChatGPT 구독과 엔터프라이즈 직계약이며 OpenRouter 비중이 상대적으로 작습니다. 엔터프라이즈 의사 결정은 자체 호출 로그와 직계약 비용을 함께 봐야 합니다.

2026 년 LLM 시장은 “단일 최강” 서사에서 벗어나 다극 라우팅과 토큰-매출 가위 격차 의 시대로 진입했습니다. Anthropic 은 컴플라이언스・금융・복잡 추론 등 고단가 영역을 사수하고, OpenAI 는 OpenRouter 에서는 약하지만 ChatGPT 와 직계약에서 강세를 유지합니다. Google 은 Gemini Flash Lite ~ Pro 로 전 가격대를 커버하고, xAI 는 법무 등 수직에서 자리를 잡습니다. 중국 진영(Xiaomi MiMo, Moonshot Kimi, DeepSeek, Alibaba Qwen, MiniMax, Z.ai GLM, StepFun)은 2.5-8 배의 가격 차, 오픈 또는 오픈웨이트 전략, 장문 컨텍스트로 코딩・배치・롤플레이를 구조적으로 흡수하고 있습니다. 이 그림을 정확히 읽는 것이 모든 라우팅 결정의 전제입니다.

MACCOME 관련 장문본 글이 다루는 범위본 글이 중복하지 않는 범위
OpenClaw 멀티 프로바이더 라우팅과 페일오버랭킹 시각의 전략 매트릭스provider 문법, 429 처리, 로그 필드 전수표
프라이빗 모델 Ollama/vLLM 연동오픈웨이트(DeepSeek, Kimi, Qwen) 의 폴백 포지션셀프 호스트 자원 예산과 라이프사이클
게이트웨이 헬스 프로브와 롤링 업데이트라우팅 계층과 게이트웨이 가용성 연동 원칙Compose/K8s 프로브 파라미터 전수표
전용 원격 Mac 의 SSH 상주 게이트웨이라우팅 출구를 독점 머신에 두는 안정성 이득포트포워딩, launchd, autossh 세부 설정

출발점이 되는 데이터: 토큰, 매출, 평균 단가의 3 시점

라우팅 결정은 동일한 데이터셋 위에 서야 합니다. 다음 표는 2026 년 4~5 월 OpenRouter 공개 데이터를 벤더별로 집계한 것입니다. 주간 토큰 점유율, 공식 단가 기준 가중 매출 점유율, 평균 단가($/M)를 동시에 보면 “양이 많고 싸다”, “양이 적고 단가가 높다”, “양과 단가 모두 상승” 의 세 가지 경쟁 모드를 구분할 수 있습니다.

벤더토큰 점유율매출 점유율평균 단가 $/M주력 모델
Anthropic12.3%46.3%$7.95Claude Opus 4.7 / Sonnet 4.6
Google13.3%7.0%$1.12Gemini 3 Flash Preview / 3.1 Pro
Xiaomi(중국)13.0%9.0%$1.47MiMo-V2-Pro
Alibaba/Qwen(중국)12.7%4.6%$0.77Qwen 3.6 Plus
OpenAI9.8%24.2%$5.25GPT-5.5 / GPT-5.4
MiniMax(중국)9.5%2.1%$0.48MiniMax M2.7 / M2.5
DeepSeek(중국)6.3%0.9%$0.30DeepSeek V3.2 / V4 Pro
Moonshot AI(중국)약 5%약 2%$1.50Kimi K2.6
Z.ai/Zhipu(중국)5.6%$0.80-1.20GLM-5 / GLM-5 Turbo
StepFun(중국)5.3%약 $0.50Step 3.5 Flash

3 시점을 함께 보면 경쟁 모드가 3 가지로 분리됩니다. (a) 양과 가격이 동반 상승 하는 Anthropic 은 높은 단가로 매출 점유율을 흡수합니다. (b) 양이 많고 가격이 낮은 DeepSeek 와 MiniMax 는 $0.30~0.50 으로 배치 워크로드를 휩쓸고 있습니다. (c) 중간대 는 Google 과 Xiaomi 가 균형을 잡습니다. OpenAI 는 매출 24.2% 를 유지하면서 토큰은 9.8% 로 줄어드는 위치로, 진짜 채널은 ChatGPT 와 엔터프라이즈 직계약임을 시사합니다.

이를 라우팅 언어로 옮기면 “지불 여력이 가장 큰 작업은 Anthropic / OpenAI 로, 대량 배치는 중국 진영으로, 중간의 탄력 밸런서는 Google 로” 라는 구조가 됩니다.

Top 10 모델과 수직 영역 리더 요약

다음 두 표는 주간 토큰 Top 10 과 5 개 주요 수직 영역의 #1 모델입니다. 라우팅 계층의 기본 큐와 폴백 리스트 출발점으로 사용 가능합니다.

순위모델벤더주간 토큰포지션
1Kimi K2.6Moonshot(중국)1.36TMoE 1T/32B, 장기 에이전트 스웜
2Claude Sonnet 4.6Anthropic(미국)1.35T1M 컨텍스트, 코딩 주력, 엔터프라이즈
3DeepSeek V3.2DeepSeek(중국)1.31TDSA 희소 어텐션, 초저가, 롤플레이 1위
4Claude Opus 4.7Anthropic(미국)1.14TAnthropic 플래그십, 복잡 추론
5Gemini 3 Flash PreviewGoogle(미국)1.06T1M 컨텍스트, 멀티모달, 헬스/아카데미아
6MiniMax M2.7MiniMax(중국)806B장문 컨텍스트의 가성비
7Grok 4.1 FastxAI(미국)721B2M 컨텍스트, 법무 #1
8Claude Opus 4.6Anthropic(미국)699B전 세대 플래그십, 안정 폴백
9MiniMax M2.5MiniMax(중국)698B코딩 가성비, $0.30/$1.20
10Step 3.5 FlashStepFun(중국)673B빠르고 저렴, 배치용
수직 영역리더$/M(in/out)승리 요인
코딩GPT-5.5 / Claude Opus 4.7$5/$30; $5/$25SWE-bench 최상, 고가치 작업
롤플레이DeepSeek V3.2(40.2%)약 $0.30가격 압도와 커뮤니티
법무Grok 4.1 Fast중가2M 컨텍스트로 장문 문서 강세
헬스/아카데미아Gemini 3 Flash Preview$0.30-$1멀티모달 + 장문 컨텍스트 + 지식 그래프
마케팅Gemini 2.5 Flash Lite$0.10/$0.40대량 초안의 초저단가

가격-성능 경계: SWE-bench × $/M 토큰

코딩 작업에서 가격과 성능은 선형 관계가 아닙니다. 다음 표는 2026-05 시점 주요 모델을 SWE-bench Verified 와 $/M 동일 축에 배치하여, “정확도 1% 추가에 얼마를 더 내는가” 라는 한계 비용 관점에서 결정할 수 있게 합니다.

모델SWE-bench VerifiedInput $/MOutput $/MContext1% 당 한계 비용(in/out)
GPT-5.588.7%$5.00$30.00200K최상 기준선
Claude Opus 4.787.6%$5.00$25.001M출력 17% 절감
Claude Opus 4.680.8%$5.00$25.001M-7pp, 가격 동일
Gemini 3.1 Pro80.6%$2.00$12.001M-8pp, 60%/60% 절감
DeepSeek V4 Pro(Max)80.6%$0.435$0.871M-8pp, 91%/97% 절감
MiniMax M2.580.2%$0.30$1.201M-8.5pp, 94%/96% 절감
Kimi K2.680.2%$0.75$3.50128K-8.5pp, 85%/88% 절감
GPT-5.478.2%$2.50$15.00200K-10.5pp, 50%/50% 절감
MiMo-V2-Pro78.0%$1.00$3.001M-10.7pp, 80%/90% 절감
DeepSeek V4 Flash약 79%$0.14$0.281M-9.7pp, 97%/99% 절감
info

경계 해석: GPT-5.5(88.7%)에서 80% 대로 내리면 정확도가 약 8pp 떨어지지만 output 단가는 $30/M 에서 $0.87-$3.50/M 로 떨어져 85-97% 의 비용을 줄일 수 있습니다. 이것이 “메인 + 폴백” 이중 라인의 데이터 근거입니다. 고가치 작업은 프리미엄 모델로 만점 확보, 배치와 회귀 작업은 DeepSeek V4 Pro 또는 Kimi K2.6 으로 80% 정확도를 1/10 비용에 확보합니다.

멀티 모델 라우팅의 4 가지 전략: 메인 + 폴백 조합

다음 표는 멀티 모델 라우팅을 업무 우선순위 별로 4 가지 전략으로 정리했습니다. 각 행에 메인 / 1차 폴백 / 2차 폴백과 발동 조건을 명시했습니다. OpenRouter, OpenClaw, 자체 게이트웨이의 provider 설정 시작점으로 그대로 사용할 수 있습니다.

전략메인1차 폴백2차 폴백발동 조건
품질 우선(엔터프라이즈, 금융, 추론)Claude Opus 4.7GPT-5.5Gemini 3.1 Pro컴플라이언스 심사, 핵심 의사결정, 장기 체인 추론
비용 우선(배치, 사내 도구)DeepSeek V4 ProMiniMax M2.5DeepSeek V4 Flash티켓, 요약, 회귀 테스트
컴플라이언스 우선(데이터 거주, 규제)동일 리전 Gemini / Claude동일 리전 Qwen / Kimi셀프 호스트 Ollama / vLLMEU GDPR, 규제 금융, 정부 데이터
장문 컨텍스트 우선(코드베이스, 장문 리포트)Gemini 3.1 Pro(1M)Grok 4.1 Fast(2M)Claude Sonnet 4.6(1M)레포 전체 분석, 장기 계약, 연차 보고서

4 가지 전략은 상호 배타적이 아니며, 같은 팀의 서로 다른 서비스가 다른 행을 사용할 수 있습니다. 게이트웨이에서 x-task-tier 헤더로 태그를 붙이고, 개발자 어시스턴트와 코드 리뷰는 품질 우선, 커밋 메시지 생성, 요약, 사내 검색은 비용 우선으로 분배합니다. 폴백 큐는 메인이 429 나 타임아웃을 반환할 때만 활성화합니다.

실전 6 단계: OpenClaw 또는 OpenRouter 배포

  1. 트래픽 프로파일링: 최근 30 일의 프롬프트/응답 토큰 수, 평균 컨텍스트 길이, 서비스별 버킷을 출력합니다. 대부분 조직에서 실제로 고가치인 비중은 10-20% 입니다.
  2. 요청 태깅: 게이트웨이에서 x-task-tier(critical/standard/bulk/experimental) 를 부여합니다. critical 은 품질 우선, bulk 는 비용 우선, experimental 은 신모델 A/B 라우팅에 사용합니다.
  3. 프로바이더와 폴백 큐 구성: OpenClaw 멀티 프로바이더 라우팅 의 YAML 예제를 참조하여 위 4 전략을 routes 로 작성합니다. OpenRouter 는 routefallback_models 를 함께 사용합니다.
  4. 비용 계측: x-provider-usedx-cost-cents 응답 헤더를 기록하고 일 단위로 대조합니다. “저가 모델 + 3 회 재시도” 가 “프리미엄 1 회” 보다 비싸지는 사고를 막습니다.
  5. 이상 경로 훈련: 429, 502, 타임아웃을 주기적으로 주입해 폴백이 의도대로 작동하는지 확인합니다. 동시에 게이트웨이 헬스 프로브 가 일부 프로바이더 장애에서 전체를 다운시키지 않도록 보장합니다.
  6. 분기별 리뷰: OpenRouter Rankings 의 분기 추이(중국 점유율, 가격 변동, 신규 출시)와 자사 30 일 로그를 같은 회의에서 비교하고 메인 모델 변경을 결정합니다. 이것이 공개 데이터를 실제 운영 결정으로 전환하는 핵심 단계입니다.

OKR 에 쓸 만한 3 가지 정량 지표

  • 버킷별 $/M 혼합 비용: critical 은 $5-10/M output, bulk 는 $0.5-2/M output 를 목표로 합니다. 분기 대비 15% 이상 절감이 보이지 않으면 전략은 실제로 작동하지 않는 것입니다.
  • 폴백 발동률: 메인 → 1차 폴백 비율은 5% 미만 으로 유지해야 합니다. 10% 를 넘으면 메인 프로바이더의 쿼터 부족이나 벤더 측 불안정을 의미하며, 폴백 가중치 를 재조정해야 합니다.
  • 단일 벤더 집중도: 단일 프로바이더의 토큰 비율은 60% 미만 이어야 합니다. 이를 넘으면 한 리전 장애(2026-04 어느 벤더의 1.5h 장애 등)로 전체 서비스가 영향을 받습니다. Mac 노드의 “동일 가격 멀티 리전” 원칙과 동일한 발상이며, 동일 가격 리전 매트릭스 를 참조하세요.

트렌드 전망과 마무리: 경쟁은 45% 에서 멈추지 않습니다

2026 년 하반기에는 3 가지 구조적 힘이 라우팅 지형을 계속 바꿔 갑니다. (a) 가격 하단은 더 내려갈 여지가 있습니다. DeepSeek V4 Flash 는 input 을 $0.14/M 까지 낮췄고 Step 3.5 Flash, GLM-5 Turbo 도 더 공격적인 가격대를 시험 중입니다. (b) 컨텍스트 윈도우 경쟁이 이어집니다. Grok 4.1 Fast 는 2M, Claude 와 Gemini 는 1M, Kimi 는 128K 입니다. 장문 문서와 코드베이스의 변곡점은 1M-2M 사이입니다. (c) 오픈 vs 클로즈드 경계는 오픈 쪽으로 기울고 있습니다. DeepSeek, Qwen, Kimi 의 오픈웨이트는 기업이 OpenRouter API 와 자체 호스팅 사본을 자유롭게 오갈 수 있게 합니다. 5 월 CNBC 의 “9 배 비용 격차” 보도와 Anthropic / OpenAI 의 IPO 평가 압력이 더해지며 이 경계는 계속 오픈으로 기울 것입니다.

이를 운영으로 옮기면 “태깅 + 메인 + 폴백 + 리뷰” 의 4 단계로 압축됩니다. 복잡해 보여도 실제는 단순합니다. 다만 안정 운영하려면 게이트웨이와 멀티 프로바이더 계층 자체가 노트북을 닫아도 끊기지 않는 환경 에 있어야 합니다. 이것이 7x24 멀티 모델 라우팅의 물리적 기준선입니다.

게이트웨이와 프로바이더 라우팅을 노트북이나 공용 워크스테이션에서 계속 돌리면 3 가지 숨은 비용을 감수해야 합니다: 슬립으로 critical 경로가 일시 단절되는 비용, 로컬 네트워크 지터로 거짓 폴백이 잦아지는 비용, 그리고 토큰과 로그가 여러 머신에 분산되어 분기 리뷰가 어려워지는 비용입니다. 7x24 가동, 메인+폴백 라우팅, 티켓화된 런북 이 필요한 프로덕션 게이트웨이는 OpenClaw 나 자체 게이트웨이를 MACCOME 의 Mac mini(M4 / M4 Pro) 와 6 개 리전 탄력 임대 위에 두는 편이 노트북에서 폴백 큐와 씨름하는 것보다 총비용이 보통 더 낮습니다. 공개 요금은 멀티 리전 노드 요금 가이드 에서, 토폴로지는 SSH 상주 게이트웨이 런북 에서 확인할 수 있습니다.

자주 묻는 질문

중국 모델이 45%+ 점유율을 차지했다면 저가 모델로 완전 이전해도 됩니까?

단순히 그렇지는 않습니다. 45% 점유율은 코딩, 배치 처리, 장문 컨텍스트 작업이 주도한 것이며 Anthropic 은 여전히 12.3% 토큰으로 매출 46.3% 를 차지합니다. “메인 + 폴백” 이중 라인으로 운영하시고, critical 작업은 Claude Opus 4.7 / GPT-5.5, bulk 작업은 Kimi K2.6 또는 DeepSeek V4 Pro 로 라우팅하시기 바랍니다. 토폴로지는 요금 페이지 를 참고하세요.

OpenRouter 공개 데이터의 신뢰성은 어떻게 자체 검증합니까?

세 가지 소스를 비교합니다: OpenRouter Rankings, 제 3 자 분석(CodeSOTA, digitalapplied 등), 자사 게이트웨이 로그입니다. 세 추세가 일치하면 의사결정에 사용 가능하며 괴리가 있을 경우 자사 로그를 최종 기준으로 삼습니다. 도입 상담은 고객 센터 에서 도와 드립니다.

Claude Opus 4.7 이나 GPT-5.5 같은 고가 모델이 여전히 대체 불가능한 시나리오는 무엇입니까?

세 가지가 있습니다. (1) 복잡한 다단 추론과 장기 도구 호출 체인(87%+ SWE-bench 가 있어야 1 회 통과가 안정적), (2) 엔터프라이즈 컴플라이언스와 금융 감사(Anthropic 안전 가드레일과 엔터프라이즈 SLA), (3) 1M 컨텍스트의 멀티모달 + 구조화 문서 처리입니다. 이 시나리오에서는 “정확도 1% 추가 비용” 이 “저가 모델 재시도 + 엔지니어 재작업” 보다 분명히 저렴합니다.