Если вам нужен 512K context window под контракты/монорепы, деплой на Ascend без NVIDIA или полный training stack в open source — 30 июня 2026 Huawei выкатил на GitCode Ascend Tribe веса openPangu-2.0-Flash, inference code и training ops. Разбор по пунктам: (1) timeline + Pro/Flash specs; (2) почему 7 компонентов — редкость; (3) mHC, Muon, ModAttn, DSA+SWA; (4) первый frontier MoE без NVIDIA training; (5) матрица vs DeepSeek/Qwen/Kimi; (6) ModelArts API + GitCode self-host за 6 шагов; (7) стратегия, HarmonyOS Agent, license. Benchmarks от третьих сторон ещё не вышли — performance claims помечены как architecture inference.
| Дата | Событие |
|---|---|
| 2026-06-12 | HDC 2026 Dongguan: официальный релиз openPangu 2.0 (Richard Yu) |
| 2026-06-30 | openPangu-2.0-Flash: weights, base inference, training ops на GitCode |
| 2026-07 (plan) | openPangu-2.0-Pro: weights + inference code |
| H2 2026 (plan) | pretrain/post-train code, доп. ops |
| Параметр | openPangu 2.0 Pro | openPangu 2.0 Flash |
|---|---|---|
| Total params | 505B | 92B |
| Active params | 18B | 6B |
| Sparsity | ~28:1 | ~15:1 |
| Context | 512K | 512K |
| Status | июль (plan) | live с 30.06.2026 |
| Training HW | Huawei Ascend 910B NPU (без NVIDIA) | |
| License | openPangu License (commercial, royalty-free, non-exclusive) | |
512K в цифрах: ~8 полноразмерных романов в одном prompt — целый контракт, крупный repo или длинная chat history. Один из самых длинных context window среди open-source моделей.
Большинство open LLM отдают только weights + inference. openPangu 2.0 планирует 7 компонентов; последние три на MoE такого размера — почти unicorn:
| Компонент | Статус |
|---|---|
| 1. Model architecture | released |
| 2. Weights (Flash live, Pro июль) | Flash live / Pro plan |
| 3. Tech report | с weights |
| 4. Inference + training ops | released |
| 5. Pretrain code | H2 2026 plan |
| 6. Post-train (SFT/RLHF) | H2 2026 plan |
| 7. Ascend custom training ops | H2 2026 plan |
Исследователи смогут воспроизвести full training pipeline; enterprise — domain second-pretrain на proprietary data. Это full-stack open source, не marketing slide.
Software stack: CANN (CUDA-like) + torch_npu. Обычный PyTorch: import torch_npu — и backend на Ascend. Deploy paths: Huawei Cloud ModelArts API, GitCode self-host, HarmonyOS native.
| Model | Total | Active | Context | Training | Open source |
|---|---|---|---|---|---|
| openPangu 2.0 Pro | 505B | 18B | 512K | Ascend NPU | full stack (7) |
| openPangu 2.0 Flash | 92B | 6B | 512K | Ascend NPU | full stack (7) |
| DeepSeek V4 Pro | 1.6T | ~200B | 128K | NVIDIA | weights+infer |
| Qwen 3.7 Max | ~400B+ | varies | 128K | NVIDIA | weights+infer+partial train |
| Kimi K2.7 | 1T | 32B | 256K | NVIDIA | weights+infer |
| Llama 4 405B | 405B | — | 128K | NVIDIA | weights+infer |
| Capability | openPangu 2.0 Pro | DeepSeek V4 Pro | Qwen 3.7 Max | Kimi K2.7 |
|---|---|---|---|---|
| Code gen | mid | top | high | high |
| Hard reasoning | mid | top | top | high |
| Tool/Agent | high | high | high | top |
| Ultra-long context | top | mid | mid | high |
| Infer (Ascend) | top | low | low | high |
| Sovereignty | top | low | low | low |
| Full-stack OSS | top | mid | mid | mid |
Дополняет OpenRouter июньский разбор: DeepSeek — volume/cost; openPangu — context length + Ascend stack depth.
openPangu-2.0-Flash, Flash-Int8, Infer, Op.finetune.py --method lora --lora_rank 16; после H2 — second pretrain с full training code.curl -X POST "https://modelarts.${REGION}.myhuaweicloud.com/v1/infers/openpangu-2-flash/chat/completions" \
-H "Content-Type: application/json" \
-H "X-Auth-Token: ${TOKEN}" \
-d '{
"model": "openpangu-2.0-flash",
"messages": [{"role": "user", "content": "Кратко представься"}],
"max_tokens": 1024,
"temperature": 0.7
}'
python inference.py \ --model_path ./openPangu-Flash \ --device npu:0 \ --context_length 512000 \ --precision bf16
| Version | HW | Min spec | Note |
|---|---|---|---|
| Flash (6B active) | 1x Ascend 910B | ~96GB unified memory | community big-RAM systems ok |
| Flash-Int8 | 1x Atlas A2 | ~48GB | W4A8, <10% loss |
| Pro (18B active) | 4+ Ascend 910B | multi-card cluster | verify after июль weights |
При US export controls на A100/H100 Huawei обучила 505B MoE на Ascend 910B и open-source'нула full stack — прямой ответ на тезис «без NVIDIA frontier LLM невозможен». Richard Yu на HDC 2026: «В оставшейся жизни у меня нет второго места — только первое.»
openPangu 2.0 — не top all-around open LLM сегодня, но почти без альтернатив по:
Multi-model routing openPangu + DeepSeek/Qwen на ноутбуке ломается на sleep/Wi-Fi jitter и размазанных логах — для stable 7x24 scheduling + multi-provider failover дешевле dedicated MACCOME Mac mini node; combo с private model runbook; тарифы: цены аренды.
Disclaimer: часть performance оценок — architecture inference; обновим после independent benchmarks. Дата: 1 июля 2026.
Ссылки: GitCode Ascend Tribe · Huawei Cloud ModelArts · HDC 2026
FAQ
Flash или Pro?
Flash (92B/6B active) live — cheap high-QPS API и single-card infer. Pro (505B/18B) в июле — ultra contracts, big repos, second pretrain. Оба: 512K context.
openPangu 2.0 vs DeepSeek V4 Pro?
Code/reasoning: DeepSeek V4 Pro (~200B active). 512K, sovereignty, Ascend, full training stack: openPangu. См. OpenRouter июнь.
Где скачать weights?
gitcode.com/org/ascend-tribe — openPangu-2.0-Flash, Flash-Int8, Infer, Op. Cloud без железа: ModelArts API.
Подходит для sovereignty/regulated проектов?
Да — первый frontier OSS LLM, обученный только на Ascend, zero NVIDIA. Agent gateway: тарифы MACCOME.