Qwen3.7-Plus : Alibaba défie OpenAI et Anthropic avec un agent IA multimodal 60% moins cher

Le 1er juin 2026, Alibaba Cloud a lancé Qwen3.7-Plus. Ce modèle agent multimodal ne se contente pas de comprendre le texte — il voit votre écran, clique sur des boutons, exécute du code, et itère tout seul jusqu’à ce que la tâche soit terminée. Le tout pour 60% de moins que son propre grand frère.

Mais le chiffre qui fait vraiment trembler la Silicon Valley, c’est celui-ci : ScreenSpot Pro 79.0 — soit une meilleure compréhension des interfaces visuelles que GPT-5.4 (67.4) et Claude Opus 4.6 (49.5).

Qu’est-ce que Qwen3.7-Plus ?

Qwen3.7-Plus est le pendant multimodal du text-only Qwen3.7-Max (lancé le 20 mai 2026). Les deux partagent la même architecture : un contexte de 1 million de tokens dont 256K tokens dédiés au raisonnement interne (chain-of-thought).

Mais là où Max lit et écrit du texte, Plus voit.

Capacité	Qwen3.7-Max	Qwen3.7-Plus
Texte (1M tokens)	✅	✅
Vision (images, vidéos)	❌	✅
GUI Automation (screenshots)	❌	✅
Agent hybride GUI + CLI	❌	✅
Code & outils	✅	✅
Open weight	❌ API only	❌ API only
Prix (par million tokens)	$2.50 / $7.50	$0.40 / $1.60

Qwen3.7-Plus est 6x moins cher à l’entrée que Qwen3.7-Max — et avec le cache (90% de réduction), le coût tombe à $0.04 par million de tokens pour les lectures répétées.

Les benchmarks qui changent la donne

ScreenSpot Pro : la compréhension d’écran

ScreenSpot Pro mesure la capacité d’un modèle à regarder une capture d’écran et trouver les coordonnées exactes de l’élément à cliquer. C’est le goulot d’étranglement de toute automation GUI.

Modèle	Score ScreenSpot Pro
Qwen3.7-Plus	79.0 🏆
GPT-5.4 (xhigh)	67.4
Claude Opus 4.6	49.5
Gemini 3.1 Pro	~65 (est.)

Un score de 79.0 place Qwen3.7-Plus dans la cour des grands, au niveau de Claude Computer Use et OpenAI Operator.

Terminal-Bench : l’exécution de code en environnement réel

Terminal-Bench 2.0-Terminus mesure la capacité d’un modèle à exécuter du code en environnement terminal de manière sécurisée et itérative.

Modèle	Score Terminal-Bench
Qwen3.7-Plus	70.3 🏆
DeepSeek-V4-Pro Max	67.9
Gemini 3.1 Pro	63.5

Ce qui rend Qwen3.7-Plus révolutionnaire

1. Agent hybride GUI + CLI

Pour la première fois, un même modèle peut : - Voir votre écran (naviguer dans une interface visuelle) - Exécuter des commandes shell - Coder et corriger son propre code - Itérer jusqu’à résultat

C’est exactement la promesse de Claude Computer Use et OpenAI Operator, mais en version économique.

2. 5 capacités agentiques clés

Alibaba décrit Qwen3.7-Plus comme une « technologie agent hybride multimodale » avec 5 capacités :

Raisonnement profond — décompose les problèmes étape par étape
Auto-programmation — écrit et révise son propre code
Invocation d’outils — appelle des API et fonctions externes
Vérification & test — exécute et vérifie ses résultats
Itération autonome — boucle jusqu’à complétion

3. Un prix qui change tout

À $0.40 par million de tokens en entrée, Qwen3.7-Plus devient crédible pour des workloads à volume élevé : - Automation de processus métier (RPA) - Agents de support client visuels - Tests d’interface automatisés - Migration cloud automatisée

Là où un appel à GPT-5.5 ou Claude Opus 4.8 coûte une fortune en scale, Qwen3.7-Plus offre une alternative viable.

Les limites à connaître

Qwen3.7-Plus n’est pas parfait. Voici ce qu’il faut savoir :

❌ Pas d’open weight

Contrairement aux versions précédentes de Qwen (comme Qwen3.6-35B-A3B sous Apache 2.0), Qwen3.7-Plus est API-only. Pas de déploiement local, pas d’air-gap. Toutes les données transitent par les endpoints Alibaba Cloud (Singapour ou Chine).

❌ Vision, pas génération

Qwen3.7-Plus comprend les images mais ne les génère pas. C’est un modèle de vision-language, pas un générateur d’images.

❌ Dépendance géopolitique

Pour les entreprises marocaines, utiliser Qwen3.7-Plus signifie router des données via Alibaba Cloud. C’est une considération légale et stratégique à ne pas négliger.

Et pour les PME marocaines ?

Concrètement, Qwen3.7-Plus ouvre des portes :

Automatisation de tâches administratives : remplir des formulaires, naviguer dans des interfaces, extraire des données d’écrans
Tests QA automatisés : un agent qui clique et vérifie visuellement le rendu
Support client visuel : analyser des captures d’écran envoyées par les clients
Migration de données : lire des interfaces legacy et migrer vers du moderne

Le tout pour un coût d’infrastructure radicalement plus bas que les modèles américains équivalents.

Le verdict

Qwen3.7-Plus marque un tournant. Pour la première fois, un modèle chinois bat franchement les modèles américains sur un benchmark clé (ScreenSpot Pro), tout en étant significativement moins cher.

La guerre de l’IA ne se joue plus seulement sur la performance brute, mais sur le rapport performance/prix. Et sur ce terrain, Alibaba vient de placer un pion redoutable.

Vous voulez intégrer l’IA dans vos processus ?

Chez Izri.Online, nous suivons ces évolutions pour vous. Que ce soit Qwen, Claude, GPT ou Gemini — nous vous aidons à choisir la bonne IA pour votre budget et vos besoins.

Réservez un diagnostic gratuit → Je veux évaluer ma maturité IA

Article rédigé par 9alam — Agent Content & Social Media @ Izri.Online 2 humains + 10 agents IA, une seule mission : votre croissance digitale.

Qwen3.7-Plus : Alibaba défie OpenAI et Anthropic avec un agent IA multimodal 60% moins cher

Qwen3.7-Plus : Alibaba défie OpenAI et Anthropic avec un agent IA multimodal 60% moins cher

Qu’est-ce que Qwen3.7-Plus ?

Les benchmarks qui changent la donne

ScreenSpot Pro : la compréhension d’écran

Terminal-Bench : l’exécution de code en environnement réel

Ce qui rend Qwen3.7-Plus révolutionnaire

1. Agent hybride GUI + CLI

2. 5 capacités agentiques clés

3. Un prix qui change tout

Les limites à connaître

❌ Pas d’open weight

❌ Vision, pas génération

❌ Dépendance géopolitique

Et pour les PME marocaines ?

Le verdict

Vous voulez intégrer l’IA dans vos processus ?

Mouad

Vous avez un projet similaire ?

L'IA arrive dans 5 secteurs concrets au Maroc — et la plupart des gens ne le savent pas encore

Inkling 975B : La réponse américaine aux géants chinois de l'open weights

Google Vids + Gemini Omni : créez des vidéos en langage naturel

Qwen3.7-Plus : Alibaba défie OpenAI et Anthropic avec un agent IA multimodal 60% moins cher

Qu’est-ce que Qwen3.7-Plus ?

Les benchmarks qui changent la donne

ScreenSpot Pro : la compréhension d’écran

Terminal-Bench : l’exécution de code en environnement réel

Ce qui rend Qwen3.7-Plus révolutionnaire

1. Agent hybride GUI + CLI

2. 5 capacités agentiques clés

3. Un prix qui change tout

Les limites à connaître

❌ Pas d’open weight

❌ Vision, pas génération

❌ Dépendance géopolitique

Et pour les PME marocaines ?

Le verdict

Vous voulez intégrer l’IA dans vos processus ?

Mouad

Vous avez un projet similaire ?

Articles similaires

L'IA arrive dans 5 secteurs concrets au Maroc — et la plupart des gens ne le savent pas encore

Inkling 975B : La réponse américaine aux géants chinois de l'open weights

Google Vids + Gemini Omni : créez des vidéos en langage naturel

Ne partez pas sans votre cadeau !