Presque personne n'a livré un système multi-agent à l'échelle de la production. La distance entre un prototype d'agent qui fonctionne dans un notebook et un système qui conduit des opérations continues sur une flotte robotique, un parc AGV, un réseau énergétique ou un réseau de contrôle industriel est là où chaque autre équipe stagne. Pour les stacks cyber-physiques, le défi est amplifié : les agents ne coordonnent pas seulement des tâches logicielles, ils orchestrent des interactions avec des systèmes physiques — lire des capteurs, envoyer des commandes actionneurs, gérer l'état au niveau de la flotte, s'interfacer avec le SCADA et le MES. J'ai architecturé Auralink — 1,7 M de lignes de code de production, environ 20 agents autonomes résolvant 78 % des incidents sans intervention humaine, arXiv 2603.08736.
Chaque démo d'agent fonctionne dans un notebook et s'effondre la première fois qu'il s'interface avec un vrai système physique à la concurrence de production. Le tutoriel utilise des appels synchrones, des données capteurs mockées et une seule trajectoire en chemin heureux. La production signifie des dizaines de sessions d'agent en parallèle, chacune faisant de vrais appels d'outils contre des flux capteurs en direct, des endpoints SCADA, des APIs MES ou des systèmes de gestion de flotte.
La méthodologie d'évaluation du travail LLM mono-tour ne s'étend pas aux trajectoires d'agents multi-étapes qui interagissent avec des systèmes physiques. Vous pouvez évaluer un prompt. Vous ne pouvez pas encore évaluer une trajectoire d'inspection autonome de 14 étapes où la cinquième étape a choisi le mauvais capteur à lire et la neuvième étape a envoyé une commande actionneur basée sur un état périmé.
Le coût par tâche explose de façon imprévisible car chaque étape d'agent multiplie à la fois la consommation de tokens et les appels à l'API du système physique. Une seule requête de gestion de flotte déclenche un plan, qui déclenche des requêtes capteurs, qui déclenchent des sous-agents.
Quand un agent fait quelque chose de faux qui affecte un système physique, vous n'avez aucune stack d'observabilité qui vous dit quelle étape a causé cela. L'équipe d'exploitation signale qu'un AGV a été envoyé au mauvais bay, ou qu'une alerte de maintenance a été faussement supprimée.
L'engagement se déroule en quatre phases de trois semaines. Je travaille embarqué dans votre équipe d'ingénierie — vos ingénieurs construisent, j'apporte les décisions de topologie, la méthodologie d'évaluation pour les interactions avec les systèmes physiques et les modèles d'observabilité d'Auralink.
Je plonge profondément dans votre prototype actuel — le graphe d'agents, l'inventaire des outils incluant les interfaces systèmes physiques (SCADA, MES, APIs capteurs, gestion de flotte, chemins de commandes actionneurs), la stratégie de gestion d'état et les modes de défaillance déjà rencontrés. Je produis une conception de topologie écrite : quels agents, quelles responsabilités, quels patterns de communication, quelles frontières d'état, quelles zones d'isolation des défaillances et quelles interactions avec les systèmes physiques nécessitent une conception d'interverrouillage sûreté ou une escalade humain-dans-la-boucle.
Vos ingénieurs implémentent la topologie. Je travaille avec eux sur les décisions les plus difficiles — les primitives d'orchestration pour les tâches longues sur les systèmes physiques, la machine à états pour la coordination au niveau flotte, la logique de retry et compensation pour les échecs de commandes actionneurs et les dropouts capteurs, les chemins d'escalade humain-dans-la-boucle où les interverrouillages de sûreté nécessitent une confirmation d'opérateur.
Évaluation au niveau des trajectoires pour les systèmes d'agents cyber-physiques — évaluation étape par étape de la précision de lecture capteur, de la correction des commandes actionneurs, de la cohérence de l'état de la flotte et de la sûreté des interactions SCADA. Évaluation déterministe basée sur des assertions pour les composants d'interaction avec les systèmes physiques.
La stack d'observabilité que votre ingénieur de permanence et votre équipe d'exploitation utiliseront — traces de trajectoires liées aux événements des systèmes physiques, lectures capteurs et commandes actionneurs journalisées par étape, diffs d'état de flotte, journaux d'interactions SCADA, comptabilité des tokens, décompositions de latence.
Industriels déployant des agents d'intelligence de flotte sur des cellules robotiques ou des parcs AGV. Utilities énergie construisant des agents de surveillance de réseau autonomes ou d'inspection de postes électriques adjacents au SCADA. Opérateurs logistiques déployant des systèmes d'agents vision entrepôt et d'optimisation de routes sur des flottes AMR. Ce service n'est pas pour les équipes sans expérience de production LLM ou sans une base de code systèmes physiques à intégrer.
Pas beaucoup. Le framework est un véhicule — les décisions qui importent sont la topologie, la gestion d'état pour les interactions avec les systèmes physiques, la méthodologie d'évaluation pour les trajectoires qui touchent les systèmes physiques, et l'observabilité. En semaine un, j'évalue si votre framework actuel est le bon véhicule pour une charge de travail cyber-physique de production.
Les interverrouillages de sûreté pour les interactions avec les systèmes physiques sont intégrés à la topologie en semaine un, pas ajoutés comme réflexion après coup. La conception de topologie identifie explicitement quels appels d'outils d'agent nécessitent une confirmation humain-dans-la-boucle (commandes actionneurs au-dessus d'un seuil, opérations d'écriture SCADA, décisions de reroutage de flotte affectant des zones de sûreté).
Un ingénieur IA senior disponible en 2026 n'a presque certainement pas livré un système multi-agent de production qui s'interface avec des systèmes physiques à l'échelle. Je l'ai fait à 1,7 M de lignes de code et 78 % de résolution autonome.
Non. Topologie des agents, harness d'évaluation pour les trajectoires systèmes physiques et observabilité sont chacun des problèmes de trois semaines bien résolus. Pour les systèmes cyber-physiques, comprimer la phase de topologie produit un système qui gère le chemin heureux et échoue au premier vrai défaut du système physique.
Découvrez d'autres services qui complètent cette offre
30 minutes. Je diagnostique votre situation, je vous dis honnêtement si ce service convient — et sinon, lequel conviendrait.