Huawei openPangu 2.0 en open source : MoE 505B, contexte 512K et pile Ascend complète

Environ 24 min de lecture · MACCOME

Les équipes confrontées à des contrats volumineux, des dépôts de code étendus ou des contraintes de souveraineté sur infrastructure Ascend disposent désormais d'une réponse concrète : le 30 juin 2026, Huawei a publié sur GitCode Ascend Tribe les poids, le code d'inférence et les opérateurs d'entraînement de openPangu-2.0-Flash, conformément aux annonces du HDC 2026. Cet article structure l'analyse autour de sept axes : calendrier et paramètres Pro/Flash ; la valeur des 7 composants open source ; les innovations mHC, Muon, ModAttn et DSA+SWA ; la portée du premier MoE frontier entraîné sans NVIDIA ; la matrice concurrentielle ; le déploiement ModelArts et GitCode en six étapes ; enfin la stratégie HarmonyOS Agent et la licence. Les évaluations de performance non benchmarkées sont présentées comme des inférences architecturales.

Six erreurs de lecture avant tout déploiement

  1. Le modèle open source le plus polyvalent : pour le code et le raisonnement complexe, DeepSeek V4 Pro (~200B actifs) conserve l'avantage ; openPangu 2.0 se distingue par le contexte 512K, l'efficacité Ascend et l'ouverture intégrale.
  2. L'entraînement sans NVIDIA : openPangu 2.0 est le premier grand modèle open source frontier entraîné intégralement sur Ascend 910B, sans A100 ni H100.
  3. Se limiter aux poids : la feuille de route inclut le code de pré-entraînement, de post-entraînement (SFT/RLHF) et les opérateurs — rare à cette échelle MoE.
  4. Attendre un débit 2x sur GPU NVIDIA : ce gain cible l'architecture optimisée Ascend ; en environnement CUDA pur, se référer aux tests communautaires grand mémoire.
  5. Confondre les ratios de sparsité : Pro ~28:1, Flash ~15:1 (DSA+SWA) ; les deux partagent un contexte 512K.
  6. Négliger l'edge et HarmonyOS : modèle embarqué 30B (+50 % inférence, -20 % RAM), exécution hors ligne sur Kirin ; HarmonyOS 7 s'appuie nativement sur openPangu 2.0.

Calendrier et données clés

DateÉvénement
2026-06-12HDC 2026 à Dongguan : annonce officielle d'openPangu 2.0 par Richard Yu
2026-06-30openPangu-2.0-Flash : poids, code d'inférence de base et opérateurs sur GitCode
2026-07 (prévu)openPangu-2.0-Pro : poids et code d'inférence
S2 2026 (prévu)Code de pré/post-entraînement et opérateurs supplémentaires

Pro vs Flash : deux variantes, un contexte 512K

DimensionopenPangu 2.0 ProopenPangu 2.0 Flash
Paramètres totaux505B92B
Paramètres actifs18B6B
Sparsité~28:1~15:1
Fenêtre de contexte512K512K
DisponibilitéJuillet prévuDisponible depuis le 30/06/2026
Matériel d'entraînementHuawei Ascend 910B NPU (sans NVIDIA)
LicenceopenPangu License (usage commercial, sans redevance, non exclusive)
info

Contexte 512K : l'équivalent d'environ huit romans complets en un seul prompt — contrats intégraux, grands dépôts ou historiques de conversation. Parmi les fenêtres les plus longues du paysage open source actuel.

Sept composants open source : une ouverture exceptionnelle

La majorité des LLM open source ne publient que poids + inférence. openPangu 2.0 vise 7 composants, dont les trois derniers sont remarquables à l'échelle MoE :

ComposantStatut
1. Architecture du modèlePublié
2. Poids (Flash live, Pro juillet)Flash disponible / Pro prévu
3. Rapport techniqueAvec les poids
4. Code d'inférence + opérateursPublié
5. Code de pré-entraînementS2 2026 prévu
6. Code de post-entraînement (SFT/RLHF)S2 2026 prévu
7. Opérateurs d'entraînement AscendS2 2026 prévu

Les chercheurs peuvent reproduire le pipeline complet ; les entreprises peuvent lancer un second pré-entraînement vertical sur données propriétaires — une véritable ouverture de bout en bout.

Architecture : quatre piliers techniques

  • mHC (Multi-Head Combinatorial) routing : routage d'experts plus efficace, moins de déséquilibre de charge.
  • Optimiseur Muon : optimisation au second ordre (Microsoft) pour stabiliser l'entraînement à grande échelle.
  • ModAttn (Modular Attention) : attention modulaire adaptée au contexte 512K.
  • DSA+SWA ultra-sparse (Flash) : 6B actifs sur un réservoir de 92B ; coût proche d'un modèle dense 6B.

Matériel Ascend et percées d'entraînement

  • Entraînement : Ascend 910B de bout en bout — premier modèle frontier sans entraînement NVIDIA intégral
  • Inférence : architecture Ascend-native, débit 2x vs modèles open source courants sur Ascend ; latence 1,2x meilleure
  • Efficacité super-nœud : +30 % ; débit séquences 512K : +50 %
  • Cohérence train-inférence : >99 % (enjeu critique en MoE)
  • Quantification : Flash-Int8 publié, W4A8, -40 % mémoire, perte <10 %
  • Edge : 30B embarqué, +50 % inférence, -20 % RAM, hors ligne sur Kirin

Écosystème développeur : CANN + torch_npu

Stack logiciel : CANN (équivalent CUDA) + torch_npu. PyTorch standard via import torch_npu. Voies de déploiement : API Huawei Cloud ModelArts, auto-hébergement GitCode, intégration HarmonyOS native.

Comparaison avec DeepSeek, Qwen, Kimi et Llama

ModèleTotalActifsContexteEntraînementOpen source
openPangu 2.0 Pro505B18B512KAscend NPUIntégral (7)
openPangu 2.0 Flash92B6B512KAscend NPUIntégral (7)
DeepSeek V4 Pro1,6T~200B128KNVIDIAPoids+inférence
Qwen 3.7 Max~400B+variable128KNVIDIAPoids+inférence+partiel
Kimi K2.71T32B256KNVIDIAPoids+inférence
Llama 4 405B405B128KNVIDIAPoids+inférence
CapacitéopenPangu 2.0 ProDeepSeek V4 ProQwen 3.7 MaxKimi K2.7
Génération de codeMoyenTrès élevéÉlevéÉlevé
Raisonnement complexeMoyenTrès élevéTrès élevéÉlevé
Outils / AgentÉlevéÉlevéÉlevéTrès élevé
Contexte ultra-longTrès élevéMoyenMoyenÉlevé
Inférence (Ascend)Très élevéFaibleFaibleÉlevé
SouverainetéTrès élevéFaibleFaibleFaible
Ouverture intégraleTrès élevéMoyenMoyenMoyen

Arbre de décision par scénario

  • Code / raisonnement complexe : DeepSeek V4 Pro (~200B actifs)
  • Agent / écosystème MCP : Kimi K2.7
  • Documents >256K tokens : openPangu 2.0 Pro (512K)
  • Souveraineté / sans dépendance NVIDIA : openPangu 2.0 (seule option frontier)
  • Environnement Ascend / Huawei Cloud : openPangu 2.0 (débit 2x)
  • Edge / mobile : openPangu Embedded (30B)
  • Inférence locale économique : openPangu 2.0 Flash (6B actifs, ~96 Go)

Complète l'analyse OpenRouter de juin : DeepSeek domine volume et coût ; openPangu domine la longueur de contexte et l'intégration Ascend.

Six étapes : de l'API ModelArts à l'auto-hébergement GitCode

  1. Scénario et version : documents ultra-longs / souveraineté → Pro (juillet) ; API immédiate / fort débit → Flash (disponible).
  2. Voie cloud : Huawei Cloud ModelArts : compte → ModelArts → AI Gallery → openPangu 2.0 → abonnement endpoint API.
  3. Validation API : requête test Chat Completions (voir curl ci-dessous).
  4. Téléchargement GitCode : Ascend TribeopenPangu-2.0-Flash, Flash-Int8, Infer, Op.
  5. Inférence Ascend : Flash sur une 910B ; Pro multi-cartes (8+) ; Int8 ~48 Go.
  6. Affinage (LoRA) : finetune.py --method lora --lora_rank 16 ; second pré-entraînement possible dès l'ouverture du code H2.
bash — API ModelArts
curl -X POST "https://modelarts.${REGION}.myhuaweicloud.com/v1/infers/openpangu-2-flash/chat/completions" \
  -H "Content-Type: application/json" \
  -H "X-Auth-Token: ${TOKEN}" \
  -d '{
    "model": "openpangu-2.0-flash",
    "messages": [{"role": "user", "content": "Presentez-vous brievement"}],
    "max_tokens": 1024,
    "temperature": 0.7
  }'
bash — Inférence Flash mono-NPU
python inference.py \
  --model_path ./openPangu-Flash \
  --device npu:0 \
  --context_length 512000 \
  --precision bf16
VersionMatérielMinimumRemarque
Flash (6B actifs)1x Ascend 910B~96 Go mémoire unifiéeSystèmes communautaires grand RAM possibles
Flash-Int81x Atlas A2~48 GoW4A8, perte <10 %
Pro (18B actifs)4+ Ascend 910BCluster multi-cartesÀ valider après sortie juillet

Portée stratégique : géopolitique, agent HarmonyOS, licence

Contexte géopolitique

Sous les restrictions d'export A100/H100, Huawei entraîne un MoE 505B sur Ascend 910B et ouvre la pile complète — une réponse directe à l'idée qu'un LLM frontier serait impossible sans NVIDIA. Richard Yu au HDC 2026 : « Dans le reste de ma vie, il n'y a pas de deuxième place, seulement la première. »

HarmonyOS Agent

  • HarmonyOS 7 entre dans l'ère Agent : openPangu 2.0 en moteur IA natif
  • Framework Agent HarmonyOS 2.0 : taux de succès >90 % sur tâches complexes
  • 30B embarqué : LLM local sans réseau

Points clés de la openPangu License

  • Usage commercial autorisé
  • Sans redevance, non exclusive
  • Détails : dépôt GitCode

Feuille de route et trois indicateurs

  • 30/06/2026 : Flash poids + inférence + opérateurs
  • Juillet 2026 : Pro poids + inférence
  • S2 2026 : code pré/post-entraînement, opérateurs, outils données
  • Contexte : openPangu 512K vs DeepSeek/Qwen 128K vs Kimi 256K — avantage 4x+ sur documents ultra-longs.
  • Débit Ascend : 2x vs open source courant sur Ascend ; cohérence train-inférence >99 %.
  • Efficacité Flash : 92B total, 6B actifs (~6,5 %/token) — coût proche d'un dense 6B.

Synthèse : à qui s'adresse openPangu 2.0 ?

openPangu 2.0 n'est pas le modèle open source le plus complet aujourd'hui, mais il est quasi irremplaçable sur :

  1. Contexte 512K — parmi les plus longs en open source
  2. Souveraineté — seul frontier sans entraînement NVIDIA
  3. Optimisation Ascend-native — débit 2x en environnement Huawei/Ascend
  4. Ouverture intégrale — y compris code d'entraînement prévu
  5. Edge + HarmonyOS — Kirin hors ligne et intégration Agent

Un routage multi-modèles openPangu + DeepSeek/Qwen sur portable échoue face au sommeil et aux logs dispersés. Pour un scheduling 7x24 stable et failover multi-fournisseur, un nœud Mac mini dédié MACCOME réduit le coût total ; voir le runbook modèle privé et la grille tarifaire.

Avertissement : certaines évaluations reposent sur des inférences architecturales ; mise à jour prévue après benchmarks tiers indépendants. Publication : 1er juillet 2026.

Références : GitCode Ascend Tribe · Huawei Cloud ModelArts · HDC 2026

Questions fréquentes

Flash ou Pro ?

Flash (92B/6B actifs) est disponible — API à fort débit et inférence mono-carte. Pro (505B/18B) en juillet — contrats ultra-longs, grands dépôts, second pré-entraînement. Les deux : contexte 512K.

openPangu 2.0 ou DeepSeek V4 Pro ?

Code et raisonnement : DeepSeek V4 Pro (~200B actifs). Contexte 512K, souveraineté, Ascend, code d'entraînement : openPangu. Voir l'analyse OpenRouter juin.

Où télécharger les poids ?

gitcode.com/org/ascend-tribeopenPangu-2.0-Flash, Flash-Int8, Infer, Op. Essai cloud sans matériel : API ModelArts.

Adapté aux projets souverains ?

Oui — premier modèle open source frontier entraîné uniquement sur Ascend, sans NVIDIA. Gateway Agent : tarifs MACCOME.