Les équipes qui exploitent déjà OpenClaw via installation ou Docker/Compose en 2026 échouent souvent sur de mauvaises routes modèle, des 429 et timeouts mélangés, un ordre de failover incohérent et des variables d’environnement scindées entre npm global et conteneurs—pas sur un échec d’installation. Cet article se situe par rapport à l’installation multiplateforme, la production Docker et l’upgrade & migration : il traite le routage multi-modèle à l’exécution, le failover actionnable, les tableaux double chemin et le triage symptomatique des journaux Gateway/CLI. Pour les symptômes post-installation, poursuivre avec le triage post-installation.
Lorsque modèles par défaut et de repli et plafonds de débit de fournisseurs distincts se cachent derrière une même passerelle, les pannes semblent aléatoires. Cartographiez ces six classes sur les champs d’alerte—ne vous arrêtez pas au seul statut HTTP.
export sur l’hôte sans injection conteneur, ou overrides Compose contraires à l’intention.Ces douleurs sont orthogonales aux sauvegardes d’upgrade et aux tags d’image : routage d’exécution vs contrôle des changements ; lisez les deux pour séparer release et astreinte.
Le multi-modèle implique souvent plusieurs comptes de facturation et périmètres de conformité. Sans portée explicite des sessions aux modèles, risque de surconsommation ou de violation de politique—traitez la table de routage comme un contrat coût et permissions revu avec la gouvernance des secrets.
« Endpoint joignable » n’est pas « chaîne saine » : proxys, pare-feu et DNS peuvent partager le succès par session—des journaux structurés et de l’échantillonnage battent un taux d’erreur global unique.
Documentez l’ordre de chargement de configuration, la précedence des variables d’environnement et les frontières de redémarrage pour les deux chemins ou vous verrez « l’hôte a changé, pas le conteneur ».
| Dimension | npm global / processus local | Docker / Compose |
|---|---|---|
| Config & secrets | Fichiers utilisateur et shell dominent | env_file, montages, -e runtime à expliciter |
| Upgrade & rollback | Épinglage npm avec CLI globale | Tags d’image, volumes, ordre docker compose pull selon le guide d’upgrade |
| Healthchecks | Alignés sur les sondes systemd/launchd | curl/CLI dans le conteneur ; pile réseau différente de l’hôte (boucle locale incluse) |
| Erreurs fréquentes | Plusieurs versions Node choisissent le mauvais global | Montages en lecture seule censés hot-reload ; env perdue après rebuild |
Fixez des règles d’organisation sur quand permuter modèle vs clé vs egress et inscrivez-les dans le même document SLO. Les numéros plus petits sont des tentatives plus tôt.
| Symptôme (journaux/métriques) | Cause probable | Ordre d’exemple |
|---|---|---|
| HTTP 429 ou limite explicite | Quota ou concurrence | Backoff → clé de secours → baisse de concurrence → modèle de repli temporaire |
| Timeouts, resets, TLS lent | Chemin réseau ou egress régional | Augmenter le timeout (plafonné) → proxy/DNS → egress plus proche |
| Modèle manquant / non autorisé | ID ou droits de compte | Console fournisseur → corriger la table de routage → éviter un repli silencieux inadapté |
| Succès de session partiel | Déséquilibre de clés ou erreur de routage sticky | Compteurs par clé & disjoncteur → épinglage de session → sharding Gateway |
# Champs journaux minimum par requête (exemple) : # requestId / sessionId / provider / modelId / status / latencyMs # Si l’un manque, ajoutez l’observabilité avant de modifier les routes à l’aveugle
Avertissement : lors d’un downgrade vers un modèle plus petit ou moins cher, étiquetez les écarts de capacité en aval dans l’automatisation ou les étapes de revue—des sorties silencieusement « moins intelligentes » provoquent des incidents métier.
En 2026, les catalogues fournisseurs continuent d’évoluer—la config comme documentation bat le savoir tribal ; stocker tables de routage et seuils d’alerte dans le même dépôt réduit les trous de passation.
Si la passerelle couvre APAC et l’Amérique du Nord, tracez une heatmap région × fournisseur : une dégradation régionale précède souvent le rouge global et informe les signaux de location de pic.
Décomposez chaque parcours utilisateur : auth → routage → appel modèle → effets de bord d’outils → réécriture de session. Chaque étape doit partager un requestId ; sinon ajoutez du tracing avant de régler les modèles.
Pour les configurations hybrides (portable, serveur nu, conteneur), exécutez un test de parité minimal hebdomadaire : même prompt et version de route sur les trois chemins ; figez les releases si l’écart latence/erreur dépasse le seuil.
Les appareils personnels ajoutent veille, WAN instable et variables d’environnement non auditées qui transforment les bogues de routage en fantômes intermittents. Quand CI, paging ou SLA clients s’appliquent, il faut du calcul dédié, un egress stable et des conditions de location contractuelles—pas des éditions infinies du fichier hosts.
Pour une passerelle 24/7, l’automatisation par lots ou une latence réduite à côté des hôtes de build/signature, placer l’exécution sur un cloud Mac multi-régions professionnel est en général plus simple à observer et à auditer. MACCOME propose des Mac Mini M4 / M4 Pro bare-metal multi-régions avec des conditions flexibles—à croiser avec le guide multi-régions et durées et les tarifs.
Pilotez dans une région jusqu’à stabiliser routes et champs de journaux, puis décidez si la passerelle co-localise les charges pour éviter inférence inter-régions et throttling.
Si vous utilisez aussi des canaux avancés depuis le runbook avancé, livrez les changements de routage modèle séparément des changements de config canal pour limiter le rayon d’explosion ; attachez la version de table de routage au ticket de changement pour échantillonnage des journaux et audits.
FAQ
En quoi est-ce différent du guide d’upgrade et de migration ?
Les upgrades couvrent sauvegardes et rollback ; cet article couvre le routage d’exécution et les journaux double chemin. Triage : post-installation ; conditions commerciales : tarifs de location et centre d’aide.
Docker montre un nouveau nom de modèle mais le trafic est ancien—par où commencer ?
Vérifier volumes Compose et overrides d’environnement, puis config chargée dans le conteneur et journaux Gateway ; avec les healthchecks production Docker.
Comment planifier OpenClaw avec un Mac distant dédié ?
Examiner SSH/VNC et placement ensemble : SSH vs VNC et centre d’aide.