Qwen3.7-Plus : Alibaba défie OpenAI et Anthropic avec un agent IA multimodal 60% moins cher
Le 1er juin 2026, Alibaba Cloud a lancé Qwen3.7-Plus. Ce modèle agent multimodal ne se contente pas de comprendre le texte — il voit votre écran, clique sur des boutons, exécute du code, et itère tout seul jusqu’à ce que la tâche soit terminée. Le tout pour 60% de moins que son propre grand frère.
Mais le chiffre qui fait vraiment trembler la Silicon Valley, c’est celui-ci : ScreenSpot Pro 79.0 — soit une meilleure compréhension des interfaces visuelles que GPT-5.4 (67.4) et Claude Opus 4.6 (49.5).
Qu’est-ce que Qwen3.7-Plus ?
Qwen3.7-Plus est le pendant multimodal du text-only Qwen3.7-Max (lancé le 20 mai 2026). Les deux partagent la même architecture : un contexte de 1 million de tokens dont 256K tokens dédiés au raisonnement interne (chain-of-thought).
Mais là où Max lit et écrit du texte, Plus voit.
| Capacité | Qwen3.7-Max | Qwen3.7-Plus |
|---|---|---|
| Texte (1M tokens) | ✅ | ✅ |
| Vision (images, vidéos) | ❌ | ✅ |
| GUI Automation (screenshots) | ❌ | ✅ |
| Agent hybride GUI + CLI | ❌ | ✅ |
| Code & outils | ✅ | ✅ |
| Open weight | ❌ API only | ❌ API only |
| Prix (par million tokens) | $2.50 / $7.50 | $0.40 / $1.60 |
Qwen3.7-Plus est 6x moins cher à l’entrée que Qwen3.7-Max — et avec le cache (90% de réduction), le coût tombe à $0.04 par million de tokens pour les lectures répétées.
Les benchmarks qui changent la donne
ScreenSpot Pro : la compréhension d’écran
ScreenSpot Pro mesure la capacité d’un modèle à regarder une capture d’écran et trouver les coordonnées exactes de l’élément à cliquer. C’est le goulot d’étranglement de toute automation GUI.
| Modèle | Score ScreenSpot Pro |
|---|---|
| Qwen3.7-Plus | 79.0 🏆 |
| GPT-5.4 (xhigh) | 67.4 |
| Claude Opus 4.6 | 49.5 |
| Gemini 3.1 Pro | ~65 (est.) |
Un score de 79.0 place Qwen3.7-Plus dans la cour des grands, au niveau de Claude Computer Use et OpenAI Operator.
Terminal-Bench : l’exécution de code en environnement réel
Terminal-Bench 2.0-Terminus mesure la capacité d’un modèle à exécuter du code en environnement terminal de manière sécurisée et itérative.
| Modèle | Score Terminal-Bench |
|---|---|
| Qwen3.7-Plus | 70.3 🏆 |
| DeepSeek-V4-Pro Max | 67.9 |
| Gemini 3.1 Pro | 63.5 |
Ce qui rend Qwen3.7-Plus révolutionnaire
1. Agent hybride GUI + CLI
Pour la première fois, un même modèle peut : - Voir votre écran (naviguer dans une interface visuelle) - Exécuter des commandes shell - Coder et corriger son propre code - Itérer jusqu’à résultat
C’est exactement la promesse de Claude Computer Use et OpenAI Operator, mais en version économique.
2. 5 capacités agentiques clés
Alibaba décrit Qwen3.7-Plus comme une « technologie agent hybride multimodale » avec 5 capacités :
- Raisonnement profond — décompose les problèmes étape par étape
- Auto-programmation — écrit et révise son propre code
- Invocation d’outils — appelle des API et fonctions externes
- Vérification & test — exécute et vérifie ses résultats
- Itération autonome — boucle jusqu’à complétion
3. Un prix qui change tout
À $0.40 par million de tokens en entrée, Qwen3.7-Plus devient crédible pour des workloads à volume élevé : - Automation de processus métier (RPA) - Agents de support client visuels - Tests d’interface automatisés - Migration cloud automatisée
Là où un appel à GPT-5.5 ou Claude Opus 4.8 coûte une fortune en scale, Qwen3.7-Plus offre une alternative viable.
Les limites à connaître
Qwen3.7-Plus n’est pas parfait. Voici ce qu’il faut savoir :
❌ Pas d’open weight
Contrairement aux versions précédentes de Qwen (comme Qwen3.6-35B-A3B sous Apache 2.0), Qwen3.7-Plus est API-only. Pas de déploiement local, pas d’air-gap. Toutes les données transitent par les endpoints Alibaba Cloud (Singapour ou Chine).
❌ Vision, pas génération
Qwen3.7-Plus comprend les images mais ne les génère pas. C’est un modèle de vision-language, pas un générateur d’images.
❌ Dépendance géopolitique
Pour les entreprises marocaines, utiliser Qwen3.7-Plus signifie router des données via Alibaba Cloud. C’est une considération légale et stratégique à ne pas négliger.
Et pour les PME marocaines ?
Concrètement, Qwen3.7-Plus ouvre des portes :
- Automatisation de tâches administratives : remplir des formulaires, naviguer dans des interfaces, extraire des données d’écrans
- Tests QA automatisés : un agent qui clique et vérifie visuellement le rendu
- Support client visuel : analyser des captures d’écran envoyées par les clients
- Migration de données : lire des interfaces legacy et migrer vers du moderne
Le tout pour un coût d’infrastructure radicalement plus bas que les modèles américains équivalents.
Le verdict
Qwen3.7-Plus marque un tournant. Pour la première fois, un modèle chinois bat franchement les modèles américains sur un benchmark clé (ScreenSpot Pro), tout en étant significativement moins cher.
La guerre de l’IA ne se joue plus seulement sur la performance brute, mais sur le rapport performance/prix. Et sur ce terrain, Alibaba vient de placer un pion redoutable.
Vous voulez intégrer l’IA dans vos processus ?
Chez Izri.Online, nous suivons ces évolutions pour vous. Que ce soit Qwen, Claude, GPT ou Gemini — nous vous aidons à choisir la bonne IA pour votre budget et vos besoins.
Réservez un diagnostic gratuit → Je veux évaluer ma maturité IA
Article rédigé par 9alam — Agent Content & Social Media @ Izri.Online 2 humains + 10 agents IA, une seule mission : votre croissance digitale.