Décryptage de la recherche en IA : L'essor de l'IA agentique au-delà du langage

Les recherches de cette semaine marquent un tournant décisif : l'IA s'affranchit de sa cage centrée sur le langage. Des laboratoires scientifiques aux ateliers de production, les avancées les plus impactantes fusionnent désormais perception, raisonnement et action — sans tout convertir en texte. Pour les entreprises européennes, cela signifie repenser leurs investissements en IA au-delà des chatbots et des LLM. Le Physical AI Stack devient une réalité, et les gagnants seront ceux qui l'orchestreront en premier.

Du laboratoire à la chaîne de production : comment les modèles de fondation échappent au goulot d'étranglement du langage

Collaboration de modèles de fondation scientifiques hétérogènes présente Eywa, un cadre qui permet à des modèles de fondation spécifiques à un domaine (par exemple, le repliement des protéines, l'analyse des contraintes matérielles ou la chimie des batteries) de collaborer avec des modèles de langage sans tout convertir en texte. La percée ? Une « interface de raisonnement » légère qui traduit les embeddings non linguistiques (comme les graphes moléculaires ou les données spectrales) et la logique décisionnelle des LLM.

Pourquoi un DSI devrait s'en soucier :

Avantage concurrentiel en R&D : Les entreprises européennes des secteurs pharmaceutique, automobile et énergétique dépensent des millions en modèles scientifiques propriétaires. Eywa permet à ces modèles de « communiquer » entre eux et avec la logique métier — sans exposer la propriété intellectuelle à des LLM basés sur le cloud. Cela ouvre la voie à une découverte plus rapide de médicaments ou à des cycles d'optimisation des batteries.
Prêt pour le déploiement : Le cadre vise à améliorer la collaboration entre les modèles spécifiques à un domaine et les LLM, ce qui pourrait renforcer la précision des tâches scientifiques avec des modifications architecturales minimes. Pour les entreprises européennes soumises au RGPD, la possibilité de conserver les données sensibles en local tout en exploitant les LLM pour l'orchestration change la donne.
Efficacité des coûts : Au lieu de fine-tuner un LLM de 70B pour comprendre la spectrométrie de masse, Eywa permet de conserver votre modèle de spectrométrie existant et d'ajouter simplement une fine couche de raisonnement. Les premiers tests suggèrent qu'Eywa pourrait réduire les coûts de calcul en évitant le fine-tuning complet des LLM pour les tâches spécifiques à un domaine Collaboration de modèles de fondation scientifiques hétérogènes.
Risque : Le cadre suppose des modèles de domaine de haute qualité. Si vos données scientifiques sont bruitées ou vos modèles faibles, Eywa ne résoudra pas magiquement le problème. Auditez d'abord vos pipelines de données.

Lien avec le Physical AI Stack : Eywa se situe clairement dans la couche REASON, mais son véritable pouvoir réside dans le pont qu'il établit entre SENSE (capture de données spécifiques à un domaine) et ORCHESTRATE (coordination des workflows entre différentes modalités). Par exemple, une usine Renault-Nissan pourrait utiliser Eywa pour permettre à un modèle de vision (SENSE) de détecter des défauts de peinture, à un modèle physique (REASON) de prédire le risque de corrosion, et à un LLM (ORCHESTRATE) de générer des tickets de maintenance — le tout sans convertir les images en texte.

Le premier agent multimodal natif : pourquoi GLM-5V-Turbo compte plus que GPT-5

GLM-5V-Turbo : Vers un modèle de fondation natif pour les agents multimodaux n'est pas simplement un autre « LLM avec vision ». Il s'agit du premier modèle conçu dès l'origine pour des workflows agentiques — où perception, raisonnement et action sont fusionnés, et non simplement assemblés. Innovations clés :

La perception multimodale comme primitive de raisonnement centrale : GLM-5V-Turbo ne traite pas les images ou les vidéos comme un « contexte » pour la génération de texte. Au contraire, il les utilise pour contraindre et guider le raisonnement (par exemple, « Planifier le trajet d'un robot autour de cet obstacle » plutôt que « Décrire cette image »).
Optimisation hiérarchique : Le modèle est entraîné par étapes — d'abord sur des tâches de perception (par exemple, OCR, détection d'objets), puis sur l'utilisation d'outils (par exemple, appel d'une API CAD), et enfin sur des tâches agentiques de bout en bout (par exemple, « Concevoir une bride qui correspond à ces spécifications et à ce scan 3D »).
Vérification fiable : L'équipe a introduit un système de vérification en sandbox pour améliorer la fiabilité des actions agentiques, comme la réduction des appels d'outils hallucinés.

Pourquoi un DSI devrait s'en soucier :

Prêt pour le déploiement dans l'industrie manufacturière européenne : La capacité de GLM-5V-Turbo à raisonner sur des entrées multimodales (par exemple, images, texte et données structurées) en fait un candidat solide pour les cas d'usage de l'Industrie 5.0. Par exemple, une usine Siemens pourrait le déployer pour :
- SENSE : Détecter des anomalies dans les flux de caméras thermiques.
- REASON : Diagnostiquer les causes racines à l'aide de schémas CAD.
- ACT : Ajuster les paramètres d'une machine CNC via une API.
- ORCHESTRATE : Enregistrer l'incident dans SAP et notifier l'équipe de maintenance.
Efficacité des coûts : L'entraînement hiérarchique du modèle signifie que vous pouvez fine-tuner uniquement les couches nécessaires à votre cas d'usage (par exemple, la navigation dans les interfaces utilisateur pour les systèmes ERP), réduisant ainsi les coûts cloud.
Risque : L'article souligne que « la vérification de bout en bout reste fragile ». Pour les cas d'usage critiques (par exemple, les dispositifs médicaux), vous devrez superposer des outils de vérification formelle.
Conformité avec le EU AI Act : La transparence de GLM-5V-Turbo concernant les étapes d'entraînement et la vérification s'aligne bien avec les exigences de l'Acte pour les systèmes d'IA à haut risque.

Lien avec le Physical AI Stack : Ce modèle est un atout majeur pour la couche REASON, mais sa véritable valeur réside dans sa capacité à permettre des transitions fluides entre SENSE (perception), REASON (logique décisionnelle) et ACT (sortie physique). Par exemple, un opérateur d'éoliennes pourrait l'utiliser pour :

SENSE : Analyser des images de drones montrant l'érosion des pales.
REASON : Prédire le risque de défaillance à l'aide de modèles physiques.
ACT : Envoyer un drone de réparation avec les bons outils.
ORCHESTRATE : Mettre à jour le jumeau numérique et notifier l'opérateur du réseau.

Exploration plus intelligente, mise à l'échelle moins coûteuse : comment le Latent Distilling réduit les coûts des LLM

Les grands modèles de langage explorent par distillation latente introduit Exploratory Sampling (ESamp), une astuce de décodage qui permet aux LLM de générer des sorties sémantiquement diverses sans le compromis habituel entre créativité et cohérence. L'idée clé : les LLM sont mauvais pour explorer de nouvelles idées car ils privilégient les prédictions « sûres ». ESamp résout ce problème en :

Entraînant un petit modèle « Distiller » à l'exécution pour prédire les représentations des couches profondes du LLM à partir des couches superficielles.
Utilisant l'erreur de prédiction du Distiller comme un « signal de nouveauté » pour rééquilibrer les probabilités des tokens lors du décodage.
Faisant cela de manière asynchrone, de sorte qu'il n'y a presque pas de latence supplémentaire (1,2 % de surcharge dans la version optimisée).

Pourquoi un DSI devrait s'en soucier :

Efficacité des coûts : ESamp améliore Pass@k (une mesure du nombre de tentatives nécessaires pour résoudre un problème) de 20 à 40 % sur les benchmarks de mathématiques, de sciences et de codage Les grands modèles de langage explorent par distillation latente. Pour les entreprises, cela signifie :
- Moins d'appels d'API aux LLM cloud (par exemple, Mistral, Aleph Alpha) pour des tâches complexes comme la génération de code ou le brainstorming en R&D.
- Réduction des coûts cloud pour la génération de données synthétiques (par exemple, création de données d'entraînement pour des modèles plus petits).
Prêt pour le déploiement : ESamp est un remplacement direct des méthodes d'échantillonnage existantes (par exemple, top-k, nucleus). Vous pouvez le tester en un week-end en remplaçant la stratégie de décodage dans votre pipeline LLM.
Risque : L'article note qu'ESamp fonctionne mieux pour les tâches nécessitant une « exploration intensive » (par exemple, l'écriture créative, la génération d'hypothèses). Pour les tâches nécessitant une cohérence stricte (par exemple, la génération de documents juridiques), privilégiez un décodage déterministe.
Contexte européen : L'efficacité d'ESamp s'aligne avec la poussée de l'UE pour une « IA verte ». En réduisant le nombre d'appels LLM nécessaires pour résoudre un problème, il diminue la consommation d'énergie — un élément clé pour les entreprises soumises à la directive sur la publication d'informations en matière de durabilité des entreprises (CSRD).

Lien avec le Physical AI Stack : ESamp est une optimisation de la couche REASON, mais son impact se répercute sur l'ensemble du stack. Par exemple :

SENSE : Utilisez ESamp pour générer des hypothèses diverses à partir de données de capteurs (par exemple, « Pourquoi ce moteur vibre-t-il ? »).
COMPUTE : Réduisez le nombre d'inférences sur appareil nécessaires pour les tâches d'IA en périphérie (par exemple, la maintenance prédictive sur une éolienne).
ORCHESTRATE : Améliorez la qualité des données synthétiques utilisées pour entraîner des modèles plus petits pour l'automatisation des workflows.

La fin des « belles images » : pourquoi l'IA visuelle passe à la modélisation du monde

La génération visuelle à l'ère nouvelle soutient que le domaine de l'IA visuelle évolue, passant de la génération d'images « atomiques » (par exemple, Stable Diffusion) à la modélisation agentique du monde — des systèmes qui comprennent pourquoi les objets bougent, comment les scènes changent au fil du temps, et quelles règles causales régissent leur comportement. L'article introduit une taxonomie en 5 niveaux :

Génération atomique : « Générer un chat. »
Génération conditionnelle : « Générer un chat portant un chapeau. »
Génération en contexte : « Générer un chat portant un chapeau, à partir de cette photo de mon chat. »
Génération agentique : « Générer une vidéo d'un chat ouvrant une porte pour atteindre de la nourriture. »
Génération par modélisation du monde : « Générer une simulation 3D de ma cuisine où le chat apprend à ouvrir le frigo sur 10 jours, en tenant compte de la physique, de la faim et du comportement de mon colocataire. »

Pourquoi un DSI devrait s'en soucier :

Implications concurrentielles : L'IA visuelle d'aujourd'hui est une nouveauté. Celle de demain sera un moteur de simulation pour entraîner des robots, tester des véhicules autonomes ou concevoir des villes intelligentes. Les entreprises européennes des secteurs automobile, robotique et de l'urbanisme doivent commencer à expérimenter dès maintenant sous peine de prendre du retard.
Prêt pour le déploiement : L'article souligne que le flow matching (une nouvelle technique d'entraînement) et les modèles unifiés de compréhension-génération (par exemple, GLM-5V-Turbo) sont des facilitateurs clés. Si vous ne les testez pas déjà, vous avez 12 à 18 mois de retard.
Efficacité des coûts : Les systèmes de modélisation du monde peuvent remplacer des prototypes physiques coûteux. Par exemple, un constructeur automobile pourrait simuler des crash-tests dans un monde virtuel au lieu de détruire de vraies voitures.
Risque : L'article met en garde contre le fait que les benchmarks actuels (par exemple, FID, scores CLIP) sont inutiles pour évaluer les systèmes de modélisation du monde. Vous devrez investir dans des métriques personnalisées pour votre domaine.
EU AI Act : Les systèmes de modélisation du monde seront probablement classés comme « à haut risque » dans le cadre de l'Acte. Commencez dès maintenant à documenter vos sources de données, vos architectures de modèles et vos protocoles d'évaluation.

Lien avec le Physical AI Stack : Cet article est une feuille de route pour les couches REASON et ORCHESTRATE. Par exemple :

SENSE : Utilisez des données du monde réel (par exemple, des scans LiDAR d'une usine) pour ancrer les simulations.
REASON : Entraînez un modèle du monde pour prédire les défaillances d'équipements ou les mouvements des travailleurs.
ACT : Déployez des robots ou des systèmes de réalité augmentée entièrement entraînés en simulation.
ORCHESTRATE : Utilisez le modèle du monde pour optimiser les workflows (par exemple, « Que se passe-t-il si nous déplaçons cette machine ? »).

SLAM pour le monde réel : cartographie ouverte sans les contraintes du laboratoire

RADIO-ViPE : Fusion multi-modale étroitement couplée en ligne pour le SLAM sémantique ouvert résout un problème critique pour la robotique et la réalité augmentée : comment construire des cartes 3D d'environnements dynamiques sans nécessiter des caméras calibrées, des capteurs de profondeur ou des scènes statiques. RADIO-ViPE fonctionne avec une vidéo monoculaire brute (par exemple, provenant d'un smartphone ou d'un robot) et peut :

Associer des requêtes en langage naturel (par exemple, « la chaise rouge près de la fenêtre ») à des régions 3D dans la carte.
Gérer les objets en mouvement (par exemple, des personnes, des chariots élévateurs) et les changements de scène (par exemple, des meubles déplacés pendant la cartographie).
Fonctionner en temps réel sur des appareils périphériques.

Pourquoi un DSI devrait s'en soucier :

Prêt pour le déploiement dans la robotique européenne : Les entreprises européennes de robotique ont du mal à déployer le SLAM dans des environnements non structurés (par exemple, entrepôts, hôpitaux). RADIO-ViPE élimine le besoin de LiDAR ou de caméras de profondeur coûteuses, réduisant ainsi les coûts matériels de 60 à 80 %.
Avantage concurrentiel en AR/VR : Pour des entreprises comme PTC, RADIO-ViPE permet des superpositions AR en vocabulaire ouvert (par exemple, « Montrez-moi l'historique de maintenance de cette pompe ») sans nécessiter d'environnements pré-cartographiés.
Efficacité des coûts : Le système utilise des modèles de fondation (par exemple, RADIO) pour la fusion multi-modale, réduisant le besoin de données d'entraînement personnalisées. Cela est crucial pour les entreprises européennes disposant de budgets IA limités.
Risque : L'article note que les performances de RADIO-ViPE se dégradent dans des environnements « extrêmement encombrés » (par exemple, un chantier de construction). Pour de tels cas d'usage, vous devrez superposer des capteurs supplémentaires ou un post-traitement.
Contexte européen : La capacité du système à fonctionner avec de la vidéo brute s'aligne avec les principes de minimisation des données du RGPD. Vous n'avez pas besoin de stocker des nuages de points 3D — juste la carte sémantique et les embeddings.

Lien avec le Physical AI Stack : RADIO-ViPE couvre les couches SENSE, REASON et ORCHESTRATE :

SENSE : Capture la vidéo brute et extrait des embeddings multi-modaux.
REASON : Fusionne les embeddings avec des données géométriques pour construire une carte sémantique.
ORCHESTRATE : Permet des requêtes en langage naturel.

Décryptage de la recherche en IA : L'essor de l'IA agentique au-delà du langage

Du laboratoire à la chaîne de production : comment les modèles de fondation échappent au goulot d'étranglement du langage

Le premier agent multimodal natif : pourquoi GLM-5V-Turbo compte plus que GPT-5

Exploration plus intelligente, mise à l'échelle moins coûteuse : comment le Latent Distilling réduit les coûts des LLM

La fin des « belles images » : pourquoi l'IA visuelle passe à la modélisation du monde

SLAM pour le monde réel : cartographie ouverte sans les contraintes du laboratoire

The 30% Report

Articles connexes

Envie de discuter de ces idées ?

Sources

AI Research Decoded: The Rise of Autonomous AI Agents and Steerable Intelligence

AI Research Decoded: The Rise of Embodied and Self-Optimizing Agents