L’IA ne dort jamais : Opus 4.8, Nvidia en feu, robots jongleurs et 3D simulation-ready
Une semaine de plus dans le monde de l’IA, et le rythme ne ralentit pas. Entre la sortie d’Opus 4.8 par Anthropic, une salve de projets open source chez Nvidia, des robots humanoïdes qui jonglent et des générateurs 3D prêts pour la simulation, voici tout ce qu’il fallait retenir.
---
Anthropic Opus 4.8 : le nouveau roi des benchmarks ?
Anthropic a dévoilé Opus 4.8, son modèle le plus avancé à ce jour. Selon leurs benchmarks internes, il surpasse Opus 4.7 — et même GPT 5.5 d’OpenAI — dans plusieurs domaines : codage agentique, raisonnement, utilisation d’ordinateur, culture générale et analyse financière. GPT 5.5 garde toutefois l’avantage sur le codage terminal.
La promesse forte d’Opus 4.8 ? L’honnêteté. Anthropic affirme que le modèle est désormais 4 fois moins susceptible de laisser passer des bugs dans son code, et qu’il signale plus volontiers ses incertitudes. Fini les hallucinations confiantes.
Mais les résultats sont plus nuancés selon la provenance des données. Sur LiveBench (Abacus AI), GPT 5.5 reste numéro un, suivi de Gemini 3.1 Pro. Et côté hallucination, Opus 4.8 stagne au même niveau que son prédécesseur — loin derrière certains modèles open source comme GLM MiniMax. Le prix est en revanche avantageux : Opus 4.8 est légèrement moins cher que GPT 5.5.
---
Nvidia : la semaine open source la plus chargée
Nvidia a enchaîné les annonces avec une générosité rare. Voici les trois projets qui méritent votre attention.
Locate Anything — la détection d’objets ultra-rapide
Donnez une image ou une vidéo à ce modèle, et il localise n’importe quel objet avec une précision redoutable, même dans les scènes bondées. L’astuce technique ? Un système de Parallel Box Decoding qui prédit l’intégralité de la boîte englobante en une seule étape — plus rapide et plus fiable que les approches token par token. Le modèle fait 3 milliards de paramètres (7.8 Go), assez léger pour tourner sur un GPU grand public. Totalement open source.
P (Pixel Diffusion) — l’upscaling 512→2K en moins d’une seconde
Le nouveau modèle d’upscaling de Nvidia change la donne. Là où la plupart des systèmes décodent d’abord l’image en espace latent puis utilisent un upscaler séparé, P fusionne tout en une seule étape avec un décodeur pixel direct. Résultat : un upscaling 512×512 vers 2K en moins d’une seconde, soit 6 fois plus rapide que Seed VR2. Compatible Flux 2, Z Image, SD3 et bientôt Qwen Image et SDXL. Open source.
Gamma World — simulations multi-agents
Générer des mondes interactifs où plusieurs joueurs ou agents évoluent simultanément, chacun avec sa propre identité et ses contrôles, tout en maintenant une cohérence parfaite. Gamma World utilise un encodage rotatif simplex pour gérer un nombre variable d’agents sans planter. Il génère des vidéos en temps réel à 24 FPS et peut passer de 2 à 4 joueurs. Le code et les scripts d’entraînement sont annoncés en open source.
---
3D & Simulation : la barrière tombe
Plusieurs projets cette semaine transforment la génération 3D en quelque chose d’utilisable dans des simulations et des jeux vidéo — pas seulement du rendu visuel.
PhysX Omni — des objets 3D qui bougent pour de vrai
Plutôt que de générer une voiture comme un bloc unique et rigide, PhysX Omni crée des assets avec des articulations, des matériaux et une compréhension du mouvement. Les roues tournent, les portes s’ouvrent, chaque partie bouge indépendamment tout en restant cohérente. Il surpasse les concurrents comme Articulate Anything sur tous les benchmarks. Open source complet.
Triplat — la reconstruction 3D sans étape de conversion
Les modèles de reconstruction 3D classiques utilisent des Gaussian Splats — des points dans l’espace — qui nécessitent une conversion supplémentaire en maillage pour être utilisés dans des simulations physiques. Triplat saute cette étape : il représente directement la scène avec des triangles, prêts pour les moteurs physiques et les collisions. Résultat : une reconstruction jusqu’à 6 fois plus rapide. 4.4 Go, open source.
CubePart — des objets 3D décomposés en pièces détachées
Donnez une description textuelle, et CubePart génère un objet 3D automatiquement segmenté en ses composants : des roues, une carrosserie, des portes… Chaque pièce est un maillage séparé qui peut être animé individuellement. Le nombre de parties est configurable (2, 4, 8…). Moins de 10 Go, open source.
Gen Recon — scène 3D à partir d’une vidéo smartphone
Filmez une pièce avec votre téléphone, et Gen Recon reconstruit la scène complète en 3D avec matériaux PBR. Le résultat est éditable : on peut changer l’éclairage, les couleurs, déplacer des objets. Il utilise Trellis 2 comme prior de forme générative pour inférer ce qui n’est pas directement visible dans les images.
---
Robots : la maison et le cirque
Deux démos bluffantes cette semaine du côté de la robotique humanoïde.
Astrobot T1 — le robot domestique à 13 000 $
Astrobot dévoile le T1, un robot humanoïde conçu pour la maison. Il fait la cuisine, la lessive, repasse, sert de barman, joue avec les enfants, et travaille aussi en entrepôt. Le prix est le vrai choc : environ 13 000 $. Il est monté sur roues, pas de jambes — donc pas d’escaliers. Mais pour du sol plat, c’est un assistant domestique extrêmement capable à prix abordable.
Athena Zero — le robot qui jongle (et apprend en 10 minutes)
Le Rye Institute a démontré Athena Zero, un robot qui jongle avec trois balles et alterne entre cinq styles de jonglage différents. Le modèle a tout appris en moins de 10 minutes d’interaction réelle. Jongler est un benchmark classique en robotique : il faut combiner tracking en temps réel, prédiction de trajectoires paraboliques, coordination main-œil et adaptation aux variations d’un lancer imparfait.
---
Science automatisée : les AI Research Teams
Un nouveau framework agentique est sorti cette semaine. AutoScientist organise les agents IA en véritables équipes de recherche décentralisées, avec un état partagé que tous consultent : la meilleure solution actuelle, l’historique des expériences, un forum de discussion, un registre des impasses pour ne pas réitérer les erreurs.
Certains agents jouent le rôle d’analystes (lisent, synthétisent, notent), d’autres d’expérimentateurs (proposent et exécutent des expériences). Sur le benchmark BioML Bench (24 tâches de ML biomédical), AutoScientist bat tous les autres frameworks agentiques. Open source.
---
Édition vidéo, lumière et son
Instruct AV permet d’éditer l’audio et la vidéo d’une personne simplement par texte. Changez les paroles, la voix (homme/femme), ou les deux — le système ajuste aussi le lipsync.
Control Light corrige les images sombres en utilisant l’IA générative plutôt qu’un simple curseur de luminosité, évitant les artefacts et le bruit. Basé sur Flux 2. Open source.
Pixel Relights prend une seule photo et laisse l’utilisateur contrôler l’éclairage comme avec une lampe : angle et dureté de la lumière. Le système estime une compréhension 3D de la scène, l’envoie dans Blender, puis génère le rendu final. Code open source disponible.
---
Image et vidéo : du téléphone à la 4K
Bonsai Image est un modèle de génération d’images qui tourne localement sur iPhone 17 Pro Max. C’est du Flux 2 Klein compressé de 8 Go à ~1 Go, capable de générer une image 512×512 en 9.4 secondes.
Sega génère des images en ultra-haute résolution — jusqu’à 6144×6144 pixels. Les résultats sont nets et cohérents même en zoomant. Compatible Flux et Qwen Image, il surpasse nettement les upscalers concurrents. Code open source.
---
Scope : un monde FPS généré en temps réel
Scope est un modèle capable de générer un jeu de tir à la première personne en temps réel, réagissant aux actions du joueur : se déplacer, viser, tirer, recharger, changer d’arme. Entraîné sur 70 000 séquences de 7 jeux FPS avec 10 types de signaux de contrôle. 30 Go, open source avec le dataset complet.
---
DeepSuite : un benchmark qui ne triche pas
DeepSuite est un nouveau benchmark pour agents de codage. Les tâches sont créées manuellement (pas de issues GitHub publiques que l’IA a pu voir en entraînement), couvrent 91 dépôts actifs. Les vérifications sont comportementales : on teste si le logiciel se comporte correctement, pas si le code correspond à une solution spécifique. Résultat : GPT 5.5 est premier, suivi par Claude, puis Gemini 3.5 Flash.
---
On a aussi noté cette semaine
Step 3.7 Flash (Stefun) — un modèle multimodal open source conçu pour l’agentique. Des performances impressionnantes frôlant GPT 5.5 sur SWE-Bench Pro.
Pantheon 360 — génération de vidéos panoramiques 360° cohérentes à partir d’images 360°. Essentiel pour les jumeaux numériques.
Mini CPM 51B (OpenBM) — un modèle de 1 milliard de paramètres en 2 Go seulement. Performances surprenantes pour un modèle aussi léger.
BEES — méthode de recherche évolutionnaire qui améliore les modèles en explorant les solutions par construction et par décomposition.
Google Relightable Characters — capture d’une personne en mouvement avec 4 caméras, puis placement dans n’importe quel environnement avec éclairage réaliste.
---
Verdict de la semaine
Ce qui frappe dans cette salve d’annonces, c’est la maturité croissante de l’open source en IA. Nvidia, Anthropic, des laboratoires de recherche — presque tout est publié, reproductible, exécutable sur du matériel grand public. Les modèles 3D deviennent simulation-ready, les robots apprennent en minutes, et les benchmarks deviennent plus exigeants.
Le message est clair : l’IA n’est plus une promesse — c’est un outil de production qu’on peut télécharger, exécuter et intégrer.
Vous voulez savoir comment intégrer ces technologies dans votre stratégie digitale ? Chez Izri.Online, on transforme la révolution IA en avantages concrets pour votre business.