Les équipes confrontées à des contrats volumineux, des dépôts de code étendus ou des contraintes de souveraineté sur infrastructure Ascend disposent désormais d'une réponse concrète : le 30 juin 2026, Huawei a publié sur GitCode Ascend Tribe les poids, le code d'inférence et les opérateurs d'entraînement de openPangu-2.0-Flash, conformément aux annonces du HDC 2026. Cet article structure l'analyse autour de sept axes : calendrier et paramètres Pro/Flash ; la valeur des 7 composants open source ; les innovations mHC, Muon, ModAttn et DSA+SWA ; la portée du premier MoE frontier entraîné sans NVIDIA ; la matrice concurrentielle ; le déploiement ModelArts et GitCode en six étapes ; enfin la stratégie HarmonyOS Agent et la licence. Les évaluations de performance non benchmarkées sont présentées comme des inférences architecturales.
| Date | Événement |
|---|---|
| 2026-06-12 | HDC 2026 à Dongguan : annonce officielle d'openPangu 2.0 par Richard Yu |
| 2026-06-30 | openPangu-2.0-Flash : poids, code d'inférence de base et opérateurs sur GitCode |
| 2026-07 (prévu) | openPangu-2.0-Pro : poids et code d'inférence |
| S2 2026 (prévu) | Code de pré/post-entraînement et opérateurs supplémentaires |
| Dimension | openPangu 2.0 Pro | openPangu 2.0 Flash |
|---|---|---|
| Paramètres totaux | 505B | 92B |
| Paramètres actifs | 18B | 6B |
| Sparsité | ~28:1 | ~15:1 |
| Fenêtre de contexte | 512K | 512K |
| Disponibilité | Juillet prévu | Disponible depuis le 30/06/2026 |
| Matériel d'entraînement | Huawei Ascend 910B NPU (sans NVIDIA) | |
| Licence | openPangu License (usage commercial, sans redevance, non exclusive) | |
Contexte 512K : l'équivalent d'environ huit romans complets en un seul prompt — contrats intégraux, grands dépôts ou historiques de conversation. Parmi les fenêtres les plus longues du paysage open source actuel.
La majorité des LLM open source ne publient que poids + inférence. openPangu 2.0 vise 7 composants, dont les trois derniers sont remarquables à l'échelle MoE :
| Composant | Statut |
|---|---|
| 1. Architecture du modèle | Publié |
| 2. Poids (Flash live, Pro juillet) | Flash disponible / Pro prévu |
| 3. Rapport technique | Avec les poids |
| 4. Code d'inférence + opérateurs | Publié |
| 5. Code de pré-entraînement | S2 2026 prévu |
| 6. Code de post-entraînement (SFT/RLHF) | S2 2026 prévu |
| 7. Opérateurs d'entraînement Ascend | S2 2026 prévu |
Les chercheurs peuvent reproduire le pipeline complet ; les entreprises peuvent lancer un second pré-entraînement vertical sur données propriétaires — une véritable ouverture de bout en bout.
Stack logiciel : CANN (équivalent CUDA) + torch_npu. PyTorch standard via import torch_npu. Voies de déploiement : API Huawei Cloud ModelArts, auto-hébergement GitCode, intégration HarmonyOS native.
| Modèle | Total | Actifs | Contexte | Entraînement | Open source |
|---|---|---|---|---|---|
| openPangu 2.0 Pro | 505B | 18B | 512K | Ascend NPU | Intégral (7) |
| openPangu 2.0 Flash | 92B | 6B | 512K | Ascend NPU | Intégral (7) |
| DeepSeek V4 Pro | 1,6T | ~200B | 128K | NVIDIA | Poids+inférence |
| Qwen 3.7 Max | ~400B+ | variable | 128K | NVIDIA | Poids+inférence+partiel |
| Kimi K2.7 | 1T | 32B | 256K | NVIDIA | Poids+inférence |
| Llama 4 405B | 405B | — | 128K | NVIDIA | Poids+inférence |
| Capacité | openPangu 2.0 Pro | DeepSeek V4 Pro | Qwen 3.7 Max | Kimi K2.7 |
|---|---|---|---|---|
| Génération de code | Moyen | Très élevé | Élevé | Élevé |
| Raisonnement complexe | Moyen | Très élevé | Très élevé | Élevé |
| Outils / Agent | Élevé | Élevé | Élevé | Très élevé |
| Contexte ultra-long | Très élevé | Moyen | Moyen | Élevé |
| Inférence (Ascend) | Très élevé | Faible | Faible | Élevé |
| Souveraineté | Très élevé | Faible | Faible | Faible |
| Ouverture intégrale | Très élevé | Moyen | Moyen | Moyen |
Complète l'analyse OpenRouter de juin : DeepSeek domine volume et coût ; openPangu domine la longueur de contexte et l'intégration Ascend.
openPangu-2.0-Flash, Flash-Int8, Infer, Op.finetune.py --method lora --lora_rank 16 ; second pré-entraînement possible dès l'ouverture du code H2.curl -X POST "https://modelarts.${REGION}.myhuaweicloud.com/v1/infers/openpangu-2-flash/chat/completions" \
-H "Content-Type: application/json" \
-H "X-Auth-Token: ${TOKEN}" \
-d '{
"model": "openpangu-2.0-flash",
"messages": [{"role": "user", "content": "Presentez-vous brievement"}],
"max_tokens": 1024,
"temperature": 0.7
}'
python inference.py \ --model_path ./openPangu-Flash \ --device npu:0 \ --context_length 512000 \ --precision bf16
| Version | Matériel | Minimum | Remarque |
|---|---|---|---|
| Flash (6B actifs) | 1x Ascend 910B | ~96 Go mémoire unifiée | Systèmes communautaires grand RAM possibles |
| Flash-Int8 | 1x Atlas A2 | ~48 Go | W4A8, perte <10 % |
| Pro (18B actifs) | 4+ Ascend 910B | Cluster multi-cartes | À valider après sortie juillet |
Sous les restrictions d'export A100/H100, Huawei entraîne un MoE 505B sur Ascend 910B et ouvre la pile complète — une réponse directe à l'idée qu'un LLM frontier serait impossible sans NVIDIA. Richard Yu au HDC 2026 : « Dans le reste de ma vie, il n'y a pas de deuxième place, seulement la première. »
openPangu 2.0 n'est pas le modèle open source le plus complet aujourd'hui, mais il est quasi irremplaçable sur :
Un routage multi-modèles openPangu + DeepSeek/Qwen sur portable échoue face au sommeil et aux logs dispersés. Pour un scheduling 7x24 stable et failover multi-fournisseur, un nœud Mac mini dédié MACCOME réduit le coût total ; voir le runbook modèle privé et la grille tarifaire.
Avertissement : certaines évaluations reposent sur des inférences architecturales ; mise à jour prévue après benchmarks tiers indépendants. Publication : 1er juillet 2026.
Références : GitCode Ascend Tribe · Huawei Cloud ModelArts · HDC 2026
Questions fréquentes
Flash ou Pro ?
Flash (92B/6B actifs) est disponible — API à fort débit et inférence mono-carte. Pro (505B/18B) en juillet — contrats ultra-longs, grands dépôts, second pré-entraînement. Les deux : contexte 512K.
openPangu 2.0 ou DeepSeek V4 Pro ?
Code et raisonnement : DeepSeek V4 Pro (~200B actifs). Contexte 512K, souveraineté, Ascend, code d'entraînement : openPangu. Voir l'analyse OpenRouter juin.
Où télécharger les poids ?
gitcode.com/org/ascend-tribe — openPangu-2.0-Flash, Flash-Int8, Infer, Op. Essai cloud sans matériel : API ModelArts.
Adapté aux projets souverains ?
Oui — premier modèle open source frontier entraîné uniquement sur Ascend, sans NVIDIA. Gateway Agent : tarifs MACCOME.