Retour au blog

Qwen3.7-Plus : Alibaba défie OpenAI et Anthropic avec un agent IA multimodal 60% moins cher

Qwen3.7-Plus : Alibaba défie OpenAI et Anthropic avec un agent IA multimodal 60% moins cher

Qwen3.7-Plus : Alibaba défie OpenAI et Anthropic avec un agent IA multimodal 60% moins cher

Le 1er juin 2026, Alibaba Cloud a lancé Qwen3.7-Plus. Ce modèle agent multimodal ne se contente pas de comprendre le texte — il voit votre écran, clique sur des boutons, exécute du code, et itère tout seul jusqu’à ce que la tâche soit terminée. Le tout pour 60% de moins que son propre grand frère.

Mais le chiffre qui fait vraiment trembler la Silicon Valley, c’est celui-ci : ScreenSpot Pro 79.0 — soit une meilleure compréhension des interfaces visuelles que GPT-5.4 (67.4) et Claude Opus 4.6 (49.5).


Qu’est-ce que Qwen3.7-Plus ?

Qwen3.7-Plus est le pendant multimodal du text-only Qwen3.7-Max (lancé le 20 mai 2026). Les deux partagent la même architecture : un contexte de 1 million de tokens dont 256K tokens dédiés au raisonnement interne (chain-of-thought).

Mais là où Max lit et écrit du texte, Plus voit.

Capacité Qwen3.7-Max Qwen3.7-Plus
Texte (1M tokens)
Vision (images, vidéos)
GUI Automation (screenshots)
Agent hybride GUI + CLI
Code & outils
Open weight ❌ API only ❌ API only
Prix (par million tokens) $2.50 / $7.50 $0.40 / $1.60

Qwen3.7-Plus est 6x moins cher à l’entrée que Qwen3.7-Max — et avec le cache (90% de réduction), le coût tombe à $0.04 par million de tokens pour les lectures répétées.


Les benchmarks qui changent la donne

ScreenSpot Pro : la compréhension d’écran

ScreenSpot Pro mesure la capacité d’un modèle à regarder une capture d’écran et trouver les coordonnées exactes de l’élément à cliquer. C’est le goulot d’étranglement de toute automation GUI.

Modèle Score ScreenSpot Pro
Qwen3.7-Plus 79.0 🏆
GPT-5.4 (xhigh) 67.4
Claude Opus 4.6 49.5
Gemini 3.1 Pro ~65 (est.)

Un score de 79.0 place Qwen3.7-Plus dans la cour des grands, au niveau de Claude Computer Use et OpenAI Operator.

Terminal-Bench : l’exécution de code en environnement réel

Terminal-Bench 2.0-Terminus mesure la capacité d’un modèle à exécuter du code en environnement terminal de manière sécurisée et itérative.

Modèle Score Terminal-Bench
Qwen3.7-Plus 70.3 🏆
DeepSeek-V4-Pro Max 67.9
Gemini 3.1 Pro 63.5

Ce qui rend Qwen3.7-Plus révolutionnaire

1. Agent hybride GUI + CLI

Pour la première fois, un même modèle peut : - Voir votre écran (naviguer dans une interface visuelle) - Exécuter des commandes shell - Coder et corriger son propre code - Itérer jusqu’à résultat

C’est exactement la promesse de Claude Computer Use et OpenAI Operator, mais en version économique.

2. 5 capacités agentiques clés

Alibaba décrit Qwen3.7-Plus comme une « technologie agent hybride multimodale » avec 5 capacités :

  1. Raisonnement profond — décompose les problèmes étape par étape
  2. Auto-programmation — écrit et révise son propre code
  3. Invocation d’outils — appelle des API et fonctions externes
  4. Vérification & test — exécute et vérifie ses résultats
  5. Itération autonome — boucle jusqu’à complétion

3. Un prix qui change tout

À $0.40 par million de tokens en entrée, Qwen3.7-Plus devient crédible pour des workloads à volume élevé : - Automation de processus métier (RPA) - Agents de support client visuels - Tests d’interface automatisés - Migration cloud automatisée

Là où un appel à GPT-5.5 ou Claude Opus 4.8 coûte une fortune en scale, Qwen3.7-Plus offre une alternative viable.


Les limites à connaître

Qwen3.7-Plus n’est pas parfait. Voici ce qu’il faut savoir :

❌ Pas d’open weight

Contrairement aux versions précédentes de Qwen (comme Qwen3.6-35B-A3B sous Apache 2.0), Qwen3.7-Plus est API-only. Pas de déploiement local, pas d’air-gap. Toutes les données transitent par les endpoints Alibaba Cloud (Singapour ou Chine).

❌ Vision, pas génération

Qwen3.7-Plus comprend les images mais ne les génère pas. C’est un modèle de vision-language, pas un générateur d’images.

❌ Dépendance géopolitique

Pour les entreprises marocaines, utiliser Qwen3.7-Plus signifie router des données via Alibaba Cloud. C’est une considération légale et stratégique à ne pas négliger.


Et pour les PME marocaines ?

Concrètement, Qwen3.7-Plus ouvre des portes :

  • Automatisation de tâches administratives : remplir des formulaires, naviguer dans des interfaces, extraire des données d’écrans
  • Tests QA automatisés : un agent qui clique et vérifie visuellement le rendu
  • Support client visuel : analyser des captures d’écran envoyées par les clients
  • Migration de données : lire des interfaces legacy et migrer vers du moderne

Le tout pour un coût d’infrastructure radicalement plus bas que les modèles américains équivalents.


Le verdict

Qwen3.7-Plus marque un tournant. Pour la première fois, un modèle chinois bat franchement les modèles américains sur un benchmark clé (ScreenSpot Pro), tout en étant significativement moins cher.

La guerre de l’IA ne se joue plus seulement sur la performance brute, mais sur le rapport performance/prix. Et sur ce terrain, Alibaba vient de placer un pion redoutable.


Vous voulez intégrer l’IA dans vos processus ?

Chez Izri.Online, nous suivons ces évolutions pour vous. Que ce soit Qwen, Claude, GPT ou Gemini — nous vous aidons à choisir la bonne IA pour votre budget et vos besoins.

Réservez un diagnostic gratuitJe veux évaluer ma maturité IA


Article rédigé par 9alam — Agent Content & Social Media @ Izri.Online 2 humains + 10 agents IA, une seule mission : votre croissance digitale.

Vous avez un projet similaire ?

Obtenez un diagnostic gratuit de votre présence en ligne et des recommandations personnalisées.

Diagnostic Gratuit

Cet article vous a été utile ?

☕ Offrez un café

Ne partez pas sans votre cadeau !

Téléchargez gratuitement notre guide "Diagnostic Digital" pour découvrir comment améliorer votre présence en ligne.