Fast niemand hat ein Multi-Agenten-System im Produktionsmaßstab ausgeliefert. Der Abstand zwischen einem Agenten-Prototyp, der in einem Notebook funktioniert, und einem System, das kontinuierliche Operationen über eine Robotikflotte, einen AGV-Hof, ein Energienetz oder ein industrielles Steuerungsnetzwerk durchführt, ist wo jedes andere Team stagniert. Für cyber-physische Stacks wird die Herausforderung verstärkt: Die Agenten koordinieren nicht nur Software-Aufgaben, sie orchestrieren Interaktionen mit physischen Systemen — Lesen von Sensoren, Absetzen von Aktorbefehlen, Verwalten von Flottenebenen-Zustand, Schnittstellen mit SCADA und MES. Ich architektierte Auralink — 1,7 Mio. Zeilen Produktionscode, etwa 20 autonome Agenten, arXiv 2603.08736.
Jede Agenten-Demo funktioniert in einem Notebook und fällt zusammen, wenn sie zum ersten Mal mit einem echten physischen System bei Produktionsparallelität interagiert. Das Tutorial verwendet synchrone Aufrufe, gemockte Sensordaten und eine einzige Happy-Path-Trajektorie. Produktion bedeutet Dutzende von Agentensitzungen parallel, jede macht echte Tool-Aufrufe gegen Live-Sensor-Feeds, SCADA-Endpunkte, MES-APIs oder Flottenmanagement-Systeme.
Die Evaluierungsmethodik aus Einzelrunden-LLM-Arbeit erstreckt sich nicht auf mehrstufige Agenten-Trajektorien, die mit physischen Systemen interagieren. Sie können einen Prompt evaluieren. Sie können noch keine 14-stufige autonome Inspektionstrajektorie evaluieren, bei der der fünfte Schritt den falschen Sensor ausgewählt hat und der neunte Schritt einen Aktorbefehl basierend auf veraltetem Zustand abgesetzt hat.
Die Kosten pro Aufgabe explodieren unvorhersehbar, weil jeder Agentenschritt sowohl Token-Verbrauch als auch physische System-API-Aufrufe multipliziert. Eine einzelne Flottenmanagement-Anfrage löst einen Plan aus, der Sensor-Abfragen auslöst, die Sub-Agenten auslösen.
Wenn ein Agent im Betrieb etwas Falsches tut, das ein physisches System betrifft, haben Sie keinen Observability-Stack, der Ihnen sagt, welcher Schritt die Ursache war. Das Betriebsteam meldet, dass ein AGV an das falsche Bay entsandt wurde, oder ein Wartungsalarm falsch unterdrückt wurde.
Das Engagement läuft in vier dreiwöchigen Phasen. Ich arbeite eingebettet in Ihr Engineering-Team — Ihre Ingenieure bauen, ich bringe die Topologie-Entscheidungen, die Evaluierungsmethodik für physische Systeminteraktionen und die Observability-Muster aus Auralink.
Ich tauche tief in Ihren aktuellen Prototyp ein — den Agentengraphen, das Tool-Inventar einschließlich physischer Systemschnittstellen (SCADA, MES, Sensor-APIs, Flottenmanagement, Aktorbefehlspfade), die Zustandsverwaltungsstrategie und die Fehlermodi, auf die Sie bereits gestoßen sind. Ich produziere ein schriftliches Topologie-Design: welche Agenten, welche Verantwortlichkeiten, welche Kommunikationsmuster, welche Zustandsgrenzen, welche Fehler-Isolationszonen und welche physischen Systeminteraktionen ein Safety-Interlock-Design oder eine Mensch-in-der-Schleife-Eskalation erfordern.
Ihre Ingenieure implementieren die Topologie. Ich arbeite neben ihnen an den schwierigeren Entscheidungen — die Orchestrierungsprimitive für langlaufende physische Systemaufgaben, die Zustandsmaschine für Flottenebenen-Koordination, die Retry- und Kompensationslogik für Aktorbefehl-Fehler und Sensor-Dropout, die Mensch-in-der-Schleife-Eskalationspfade wo Sicherheits-Interlocks Betätiger-Bestätigung erfordern.
Trajektorien-Evaluierung für cyber-physische Agentensysteme — Schritt-für-Schritt-Evaluierung von Sensor-Lesegenauigkeit, Aktorbefehlskorrektheit, Flottenstatuskonsistenz und SCADA-Interaktionssicherheit. Deterministische Assertions-basierte Evaluierung für die physischen Systeminteraktionskomponenten.
Der Observability-Stack, den Ihr Bereitschaftsingenieur und Betriebsteam verwenden werden — Trajektorien-Traces verknüpft mit physischen Systemereignissen, Sensor-Lesungen und Aktorbefehle protokolliert pro Schritt, Tool-Call-Ein- und -Ausgaben, Flottenstatus-Diffs, SCADA-Interaktionsprotokolle.
Hersteller, die Flottenintelligenz-Agenten über Robotikzellen oder AGV-Höfe einsetzen. Energieversorger, die autonome Netzüberwachungs- oder Umspannstationsinspektions-Agenten neben SCADA aufbauen. Logistikbetreiber, die Lager-Vision- und Routenoptimierungs-Agentensysteme über AMR-Flotten einsetzen. Kein Angebot für Teams ohne LLM-Produktionserfahrung oder ohne eine physische System-Codebasis zur Integration.
Nicht sehr. Das Framework ist ein Vehikel — die Entscheidungen, die wichtig sind, sind die Topologie, die Zustandsverwaltung für physische Systeminteraktionen, die Evaluierungsmethodik für Trajektorien, die physische Systeme berühren, und die Observability. In Woche eins bewerte ich, ob Ihr aktuelles Framework das richtige Vehikel für eine cyber-physische Produktionsarbeitsbelastung ist.
Sicherheits-Interlocks für physische Systeminteraktionen werden in Woche eins in die Topologie eingebaut, nicht als Nachgedanke hinzugefügt. Das Topologie-Design identifiziert explizit, welche Agenten-Tool-Aufrufe Mensch-in-der-Schleife-Bestätigung erfordern (Aktorbefehle über einem Schwellenwert, SCADA-Schreiboperationen, Flottenumrouting-Entscheidungen, die Sicherheitszonen betreffen).
Ein im Jahr 2026 verfügbarer Senior-KI-Ingenieur hat fast sicherlich kein Produktions-Multi-Agenten-System ausgeliefert, das mit physischen Systemen im Maßstab interagiert. Ich habe es bei 1,7 Mio. Zeilen Code und 78 % autonomer Auflösung getan.
Nein. Agenten-Topologie, Eval-Harness für physische System-Trajektorien und Observability sind jeweils dreiwöchige Probleme, wenn sie gut gemacht werden. Für cyber-physische Systeme führt das Komprimieren der Topologiephase zu einem System, das den Happy Path behandelt und beim ersten echten physischen Systemfehler versagt.
Entdecken Sie weitere Services, die dieses Angebot ergänzen
30 Minuten. Ich diagnostiziere Ihre Situation und sage Ihnen ehrlich, ob dieser Service passt — und wenn nicht, welcher.