Physical AI · Industrierobotik · ROS 2

Sim-to-Real für die Industrierobotik: Von der Simulation zur produktionsreifen Autonomie

In der Simulation trainierte Policies versagen regelmäßig auf der Hardware. Die Gründe sind konkret und behebbar — aber nur, wenn man die gesamte Pipeline versteht: physikalische Simulation, Domänen-Randomisierung, synthetische Datengenerierung, Sim-to-Real-Transfer, virtuelle Inbetriebnahme und Edge-Inferenz auf dem Roboter. Dieser Leitfaden erläutert jede Phase, behandelt die führenden Plattformen (NVIDIA Isaac Sim, Gazebo, MuJoCo), geht durch VLA-Policy-Architekturen und ordnet die Sicherheitsanforderungen nach ISO 10218 / ISO TS 15066 / IEC 61508 ein, die die KI-Steuerung in produktiven Roboterzellen regeln.

8 Abschnitte

40 Min. Lesezeit

Robotik-Integratoren · AMR/AGV · ROS 2 · Tier-1-OEMs

May 2026

Zuletzt geprüft: Mai 2026

Sim-to-Real-Transfer ist der Prozess, eine Roboter-Steuerungs-Policy — eine Funktion, die Sensorbeobachtungen auf Aktorbefehle abbildet — vollständig oder überwiegend in der Simulation zu trainieren und sie dann auf physischer Hardware einzusetzen. Die zentrale Herausforderung besteht darin, dass kein Simulator die reale Physik, Wahrnehmung und Aktordynamik perfekt nachbildet. Das Schließen der daraus resultierenden Leistungslücke erfordert eine systematische Pipeline: hochpräzise physikalische Simulation, Domänen-Randomisierung, synthetische Datengenerierung, Hardware-in-Loop-Validierung und sorgfältige Edge-Inferenz-Bereitstellung. Richtig umgesetzt, macht sie die groß angelegte Erfassung realer Daten überflüssig; falsch umgesetzt, versagt der Roboter bei seiner ersten Interaktion mit der physischen Welt.

Die Sim-to-Real-Lücke: Warum in der Simulation trainierte Policies auf der Hardware versagen

Eine vollständig in der Simulation trainierte und direkt auf der Hardware eingesetzte Roboter-Policy versagt — oft sofort, mitunter katastrophal. Das ist keine Überraschung; es ist eine erwartete Folge der grundlegenden Diskrepanz zwischen Simulation und Realität. Genau zu verstehen, wo und warum Policies versagen, ist die Voraussetzung für den Entwurf einer Pipeline, die Policies hervorbringt, die tatsächlich übertragbar sind.

Die Lücke hat zwei Dimensionen. Die erste ist physikalisch: Simulatoren approximieren Kontaktdynamik, Reibung, Aktorverhalten und Sensorcharakteristik. Diese Approximationen sind unvermeidlich — selbst die hochpräzisesten Physik-Engines treffen vereinfachende Annahmen, die von der Realität in einem Ausmaß abweichen, das für eine Steuerungs-Policy bedeutsam ist. Die zweite Dimension ist die Wahrnehmung: simulierte Kameras rendern idealisierte Beleuchtung, Textur und Geometrie. Reale Kameras begegnen Bewegungsunschärfe, strukturiertem Rauschen, spiegelnden Reflexionen und Umgebungsvariationen, die die Policy im Training nie gesehen hat.

Die praktische Folge ist ein Aktionsverteilungs-Shift: Die Policy hat eine Abbildung von simulierten Beobachtungen auf Aktionen gelernt, und wenn reale Beobachtungen (die sich von simulierten auf die oben beschriebene Weise unterscheiden) präsentiert werden, erzeugt die Policy Aktionen, die zur erwarteten Simulationsbeobachtung passen, nicht zur tatsächlich empfangenen realen. Dies äußert sich in unregelmäßiger Bewegung, Greiffehlern und im schlimmsten Fall in unsicherer, unkontrollierter Bewegung.

Domänen-Randomisierung ist die primäre Gegenmaßnahme: Durch Training über eine breite Verteilung simulierter Bedingungen (variierte Reibung, variierte Beleuchtung, variierte Objektposen) lernt die Policy Repräsentationen, die über jede einzelne Simulationskonfiguration hinaus generalisieren. Die reale Welt wird zu einer weiteren Stichprobe aus dieser Verteilung — eine, die die Policy nicht gesehen hat, deren Eigenschaften aber in den Bereich fallen, für den sie trainiert wurde. Das funktioniert in dem Maße, in dem die reale Welt innerhalb der Randomisierungs-Hülle liegt. Sicherzustellen, dass dies der Fall ist, erfordert eine sorgfältige Systemidentifikation.

Sim-to-Real-Versagensmodi

Kritisch

Wahrnehmungs-Diskrepanz

Simulatoren rendern idealisierte Texturen, Beleuchtung und Objektgeometrie. Hardware-Kameras begegnen Bewegungsunschärfe, spiegelnden Glanzlichtern, Staub und perspektivischen Verzerrungen, die die Policy nie gesehen hat. Selbst kleine Wahrnehmungsabweichungen verursachen einen katastrophalen Aktionsverteilungs-Shift.

Kritisch

Fehler in der Dynamikmodellierung

Kontaktdynamik — Reibung, Nachgiebigkeit, Spiel, Kabelspannung — ist bekanntermaßen schwer präzise zu modellieren. Auf Starrkörper-Simulationsannahmen trainierte Policies versagen sofort beim Greifen verformbarer Objekte oder beim Betrieb auf unebenen Fabrikböden.

Hoch

Aktor-Latenz und -Rauschen

Reale Servoregler weisen Latenz, Stromgrenzen, thermische Sättigung und Spiel auf. Simulationen nehmen typischerweise sofortige, perfekte Aktorik an. Eine Policy, die in der Simulation präzises Timing ausnutzt, kämpft gegen die Hardware.

Hoch

Sensorrauschen und Kalibrierungsdrift

IMUs driften, Kraft-/Momentsensoren sind temperaturabhängig, Tiefenkameras haben strukturiertes Rauschen. Policies, die nicht auf realistischen Sensorrauschverteilungen trainiert wurden, versagen beim Einsatz auf realer Hardware.

Hoch

Verteilungs-Shift bei Randfällen

Die Simulation kann nicht jede reale Konfiguration vorhersehen: leicht fehlplatzierte Teile, beschädigte Verpackung, Feuchtigkeitseinflüsse auf die Greiferreibung. Die Abdeckung des gesamten Long-Tail realer Bedingungen ist die grundlegende Herausforderung.

Mittel

Zustandsschätzungsfehler

In der Simulation ist der Ground-Truth-Zustand stets verfügbar. Auf der Hardware muss der Zustand aus verrauschten Sensoren abgeleitet werden. Policies, die von präzisen Posenschätzungen abhängen, brechen, wenn die Schätz-Pipeline Unsicherheit einführt.

Die Sim-to-Real-Pipeline: Sechs Phasen von der Simulation zur Produktion

Ein produktiver Sim-to-Real-Einsatz ist kein einzelner Algorithmus — er ist eine Pipeline aus sechs eigenständigen Phasen, jede mit eigenem Werkzeug, eigenen Entscheidungspunkten und Versagensmodi. Die Phasen sind sequenziell: Die Qualität jeder Phase setzt die Obergrenze für die nächste.

Im Folgenden wird jede Phase so beschrieben, wie Hyperion sie in Industrierobotik-Projekten umsetzt. Plattformverweise sind neutral — die Pipeline funktioniert mit jeder der wichtigsten in Abschnitt 3 beschriebenen Simulationsumgebungen.

Physikalische Simulation

Erstellung eines hochpräzisen Physikmodells des Roboters, seines Endeffektors, des Arbeitsraums und aller relevanten Objekte. Starrkörper- und Mehrkörperdynamik, Kontaktmodelle (Coulomb-Reibung, weicher Kontakt) und kinematische Zwangsbedingungen werden hier festgelegt. Die Qualität des Physikmodells setzt die Obergrenze für den nachgelagerten Transfer.

Schlüsselentscheidungen

Solver-Wahl: Starrkörper vs. verformbarer Körper

Kontaktmodell: penalty-basiert vs. impuls-basiert

Aktormodell: PD-Regelung vs. Momentenregelung

Genauigkeit des Sensormodells (Kamera, LiDAR, Kraft/Moment)

Werkzeuge

NVIDIA Isaac Lab / GymMuJoCoGazebo Harmonic / ClassicPyBulletWebots

Domänen-Randomisierung

Gezieltes Variieren physikalischer und visueller Parameter über Trainingsepisoden hinweg, um die Policy zu zwingen, generalisierende Repräsentationen zu lernen. Randomisierung wirkt als Regularisierer: Eine Policy, die unter einer breiten Verteilung von Simulationsbedingungen erfolgreich ist, bewältigt mit höherer Wahrscheinlichkeit die spezifischen (unbekannten) Bedingungen des realen Einsatzes.

Schlüsselentscheidungen

Randomisierungsbereich: zu breit verwässert das Lernen, zu eng überanpasst an die Simulation

Physik-DR: Masse, Reibungskoeffizient, Gelenkdämpfung, Schwerpunktverschiebungen

Visuelle DR: Beleuchtungsrichtung/-intensität, Objekttextur, Kamerapose, Hintergrund

Strukturierte DR vs. gleichverteiltes Sampling — Curriculum-Planung

Werkzeuge

Isaac Lab Randomization APIMuJoCo domain_rand moduleGymnasium wrappers

Synthetische Datengenerierung

Erzeugung umfangreicher Trainingsdatensätze aus der Simulation: RGB-D-Bilder mit perfekten Ground-Truth-Labels, 6-DoF-Posenannotationen, Segmentierungsmasken und Trajektorien-Demonstrationen. Synthetische Daten überbrücken den Annotationsengpass, der überwachtes Lernen aus realen Daten begrenzt.

Schlüsselentscheidungen

Fotorealistisches Rendering vs. Geschwindigkeit: Raytracing vs. Rasterisierung

Demonstrationserzeugung: skriptbasiert, teleoperiert oder per RL erhoben

Datenaugmentierungs-Pipeline zur Abdeckung der Domänenlücke

Trainingsdaten zur Posenschätzung: BlenderProc, NDDS oder Isaac Replicator

Werkzeuge

NVIDIA ReplicatorBlenderProc2FoundationPoseSAM 2 (segmentation)

Sim-to-Real-Transfer

Anwendung von Transfertechniken zum Schließen der Restlücke nach der Domänen-Randomisierung. Die Systemidentifikation gleicht Simulationsparameter an reale Hardwaremessungen an. Adaptionsschichten (RAPID, RMA oder ähnlich) konditionieren die Policy auf einen gelernten Kontextvektor, der reale Umgebungseigenschaften aus kurzen Interaktionsfenstern kodiert.

Schlüsselentscheidungen

Systemidentifikation: offline (CAD + Charakterisierung) vs. online (adaptiv)

Transfermethode: Zero-Shot, Few-Shot-Feinabstimmung oder Online-Adaption

Training mit privilegierter Information (Teacher-Student: Sim-Teacher → realer Student)

Lernen einer Residual-Policy auf realer Hardware nach Sim-Vortraining

Werkzeuge

RMA (Rapid Motor Adaptation)RAPIDLoRA fine-tuning on robot foundation models

Virtuelle Inbetriebnahme

Vor dem Einsatz auf physischer Hardware wird die trainierte Policy in einem digitalen Zwilling der Produktionszelle ausgeführt — einschließlich SPS-Logik, Fördererzeitsteuerung und Roboter-zu-Roboter-Koordination. Die virtuelle Inbetriebnahme erkennt Integrationsfehler (Timing-Konflikte, Arbeitsraum-Kollisionen, unerwartete Zustandsmaschinenübergänge), ohne Hardwareschäden zu riskieren.

Schlüsselentscheidungen

Genauigkeit des digitalen Zwillings: nur Kinematik vs. vollständige Dynamik

SPS-Co-Simulation: OPC-UA-Brücke zum Hardware-in-Loop-Prüfstand

Teststrategie SIL (Software-in-Loop) vs. HIL (Hardware-in-Loop)

Abnahmekriterien: Abdeckung der Versagensmodi in der Inbetriebnahme-Testsuite

Werkzeuge

Siemens NX MCDNVIDIA Isaac Sim + OPC-UA bridgeROS 2 + Gazebo HILABB RobotStudio

Edge-Inferenz auf dem Roboter

Einsatz der trainierten Policy auf der bordseitigen Recheneinheit des Roboters für Echtzeit-Inferenz. Latenz, Speicherbedarf und Leistungsbudget sind die zentralen Beschränkungen. Policies werden typischerweise auf INT8 oder FP16 quantisiert und mit TensorRT oder ONNX Runtime für die Zielhardware (NVIDIA Jetson, Orin oder AMD Kria SOM) kompiliert.

Schlüsselentscheidungen

Inferenz-Hardware: zentraler GPU-Knoten vs. verteiltes Edge-SOM pro Roboter

Quantisierungsstrategie: INT8 vs. FP16 vs. gemischte Präzision

Determinismus: feste Inferenzzeit für harte Echtzeit-Regelschleifen

Überwachung: Inferenz-Konfidenz, Erkennung des Verteilungs-Shifts zur Laufzeit

Werkzeuge

TensorRTONNX RuntimeNVIDIA Jetson OrinAMD Kria K26ROS 2 LifecycleNode

Simulationsplattformen: Isaac Sim, Gazebo und MuJoCo

Die drei dominierenden Simulationsplattformen für die Industrierobotik besetzen jeweils eine eigene Nische. Die Wahl richtet sich nach Aufgabentyp, Zielhardware, Team-Expertise und Lizenzbeschränkungen — nicht nach Anbieterpräferenz. Alle drei können einsatzfähige Policies erzeugen, wenn die Pipeline korrekt konfiguriert ist.

Offenlegung: Hyperion unterhält keine kommerzielle Partnerschaft, Wiederverkäufervereinbarung oder Zertifizierung von NVIDIA, Open Robotics, Google DeepMind oder einem anderen Simulationsplattform-Anbieter. Die Plattformbeschreibungen beruhen auf öffentlicher Dokumentation und Hyperions Umsetzungserfahrung.

NVIDIA Isaac Sim / Isaac Lab

GPU-beschleunigter Robotik-Simulator

Isaac Sim ist NVIDIAs Robotik-Simulationsumgebung auf Basis der Omniverse-USD-Plattform. Isaac Lab (Nachfolger von Isaac Gym) stellt die Trainingsinfrastruktur für bestärkendes Lernen bereit. GPU-parallelisierte Simulation ermöglicht das gleichzeitige Ausführen Tausender paralleler Umgebungen — entscheidend für die Anforderungen an die Stichprobeneffizienz moderner RL-Policies. Isaac Lab integriert APIs zur Domänen-Randomisierung, Importer für Roboter-Assets (URDF, MJCF) und eine standardmäßige Trainingsschleife für bestärkendes Lernen.

Industrieeignung

Höchster Fotorealismus durch Raytracing-Rendering; engste Integration mit der Edge-Inferenz-Hardware NVIDIA Jetson und AGX Orin. Beste Wahl, wenn visueller Realismus ein vorrangiges Sim-to-Real-Anliegen ist oder beim Einsatz auf NVIDIA-Edge-Rechenleistung.

Einschränkungen

Erfordert eine NVIDIA-GPU für die Simulation (kein AMD- oder reiner CPU-Pfad). Die Lizenzbedingungen erfordern für Produktionseinsätze eine Prüfung.

Gazebo (Harmonic / Classic)

Open-Source-ROS-2-Simulator

Gazebo ist der De-facto-Open-Source-Simulator für die ROS-2-Entwicklung. Gazebo Harmonic (2023+) ist die aktuelle stabile Version unter Open Robotics, mit einer Plugin-Architektur, die mehrere Physik-Backends unterstützt (DART, Bullet, ODE). Die native ROS-2-Integration über gz_ros2_control und ros_gz_bridge macht es zur natürlichen Wahl für Teams, die auf ROS 2 aufbauen. Die Open-Source-Lizenz und die aktive Community machen es für Proof-of-Concept- und Entwicklungsarbeiten kosteneffizient.

Industrieeignung

Am besten für ROS-2-native Entwicklungspipelines. Starke Community-Unterstützung für AMR-Navigation (Autonome Mobile Roboter), Manipulation und Sensorsimulation. Kostenlos und für den industriellen Einsatz anpassbar.

Einschränkungen

Physikgenauigkeit und Renderingqualität unter Isaac Sim. Paralleles Training erfordert eine eigene Infrastruktur (keine eingebaute GPU-parallele RL-Unterstützung).

MuJoCo

Hochpräzise Physik-Engine

MuJoCo (Multi-Joint dynamics with Contact) ist eine Physik-Engine, die eigens für Robotik- und Biomechanik-Simulation entwickelt wurde. Ihr Kontaktdynamikmodell gilt weithin als das genaueste, das für kontaktreiche Manipulationsaufgaben verfügbar ist. 2021 von Google DeepMind übernommen und für alle Nutzer kostenlos freigegeben, ist MuJoCo das bevorzugte Physik-Backend für die Manipulationsforschung (die meisten akademischen Manipulations-Benchmarks nutzen MuJoCo). Das MJCF-Modellformat ist ausdrucksstark und gut dokumentiert.

Industrieeignung

Beste Physikgenauigkeit für Manipulationsaufgaben — Greifen, Montieren, Schrauben, Handhabung verformbarer Objekte. Unerlässlich, wenn der Erfolg kontaktreicher Aufgaben von präziser Dynamiksimulation abhängt.

Einschränkungen

Nativ keine GPU-parallele Simulation (MJX, der JAX-Port, ergänzt begrenzte GPU-Unterstützung). Renderingqualität für das Training visueller Policies geringer als bei Isaac Sim.

Gestalten Sie Ihre Sim-to-Real-Pipeline

Unsicher, welche Simulationsplattform zu Ihrer Aufgabe passt oder wo Ihre aktuelle Pipeline Leistung verliert? Hyperion führt einen fokussierten Discovery-Sprint durch — 2 Wochen —, der Ihre Roboterzelle abbildet, die spezifischen Sim-to-Real-Versagensmodi identifiziert, denen Sie wahrscheinlich begegnen, und eine Pipeline-Architektur für Ihre konkrete Aufgabe und Hardware erstellt.

Physical-AI-Deployment-Services

Vision-Language-Action-Policies: Die aufkommende Grenze

Die neueste Generation von Roboter-Policies geht über aufgabenspezifisches RL oder Imitationslernen hinaus, indem sie die Steuerung in großen, vortrainierten Vision-Language-Modellen verankert. Diese VLA-Policies (Vision-Language-Action) bieten semantische Generalisierung — die Fähigkeit, natürlichsprachliche Anweisungen zu befolgen und neuartige Objektkategorien zu bewältigen — die herkömmliche aufgabenspezifische Policies nicht erreichen. Der Kompromiss liegt in Rechenaufwand und Inferenzlatenz. Im Folgenden werden die vier dominierenden Policy-Architekturen beschrieben, die in industrienaher Sim-to-Real-Arbeit verwendet werden.

Diffusion Policy

Diffusion Policy modelliert Roboter-Aktionssequenzen als Entrausch-Diffusionsprozess über den Aktionsraum. Sie lernt eine Score-Funktion, die bei gegebener verrauschter Aktionsvorschlag und aktueller Beobachtung den Score-Gradienten in Richtung der demonstrierten Aktionsverteilung vorhersagt. In der Praxis: stark multimodal — kann mehrere gültige Aktionsmodi für dieselbe Beobachtung darstellen. Starke Generalisierung auf neue Objektpositionen. Zur Inferenzzeit rechenintensiver als MLP-basierte Ansätze.

Beste Eignung

Manipulationsaufgaben mit multimodalen Aktionsverteilungen: Pick-and-Place mit variablen Objektposen, Montage mit Bahnflexibilität.

ACT (Action Chunking with Transformers)

ACT nutzt eine Transformer-Encoder-Decoder-Architektur, die per Imitationslernen (CVAE-artig) trainiert wird, um Blöcke künftiger Aktionen statt Einzelschritt-Aktionen vorherzusagen. Action-Chunking reduziert sich aufschaukelnde Fehler und verbessert die zeitliche Kohärenz. ACT wurde an beidhändigen Manipulationsaufgaben (ALOHA-Hardware) demonstriert und weist einen starken Realwelt-Transfer aus Teleoperations-Demonstrationen auf.

Beste Eignung

Beidhändige Montage, Falten und Aufgaben, die koordinierte Zweiarm-Bewegung erfordern. Funktioniert gut mit 50–200 menschlichen Teleoperations-Demonstrationen.

RT-2- / OpenVLA-Stil (VLM-basiert)

Ansätze in der RT-2-Linie passen große Vision-Language-Modelle (VLMs) so an, dass sie Roboteraktionen direkt als tokenisierte Sequenzen ausgeben. Das VLM-Backbone bietet ein reiches semantisches Verständnis des Szeneninhalts und ermöglicht eine Zero-Shot-Generalisierung auf neuartige, in natürlicher Sprache beschriebene Objektkategorien. OpenVLA (Open Source, 7B Parameter) macht diese Modellklasse ohne proprietäre Infrastruktur zugänglich.

Beste Eignung

Aufgaben, die semantisches Verständnis erfordern: „die rote Komponente aus dem Behälter nehmen“, „das Objekt auf das beschriftete Tablett legen“. Bewältigt neuartige Objektkategorien zur Inferenzzeit.

Bestärkendes Lernen (PPO / SAC auf Isaac Lab)

Modellfreies RL mit GPU-paralleler Simulation bleibt der dominierende Ansatz für Lokomotion und kontaktreiche Aufgaben, bei denen sich die Belohnungsfunktion entwerfen lässt. In Isaac Lab oder Brax mit Domänen-Randomisierung trainierte PPO (Proximal Policy Optimization) und SAC (Soft Actor-Critic) erzeugen Policies, die über die Restdynamiklücke auf die Hardware übertragen. Die Lokomotions-Policies von AnyBotics ANYmal und Boston Dynamics Atlas sind kanonische Beispiele.

Beste Eignung

Lokomotion (Laufroboter, AGV-Hindernisvermeidung), kontaktreiche Aufgaben (Mutter-/Schraubenmontage, Ventildrehen), bei denen Reward-Shaping machbar ist.

Sicherheitsarchitektur: ISO 10218, ISO TS 15066 und IEC 61508

KI-trainierte Roboter-Policies existieren nicht außerhalb des sicherheitsregulatorischen Rahmens. Sie sind Steuerungsprogramme, und die Sicherheitsnormen, die Robotersysteme regeln, gelten für sie vollumfänglich. Das entscheidende Architekturprinzip — das Hyperion bei jedem Einsatz umsetzt — lautet: Die KI-Policy läuft im nicht sicherheitsgerichteten Kanal. Die Sicherheitsdurchsetzung wird stets unabhängig in der zertifizierten Sicherheitsschicht der Robotersteuerung umgesetzt.

Prinzip der Sicherheitsarchitektur: Der KI-Inferenz-Stack ist nicht das Sicherheitssystem. Geschwindigkeitsbegrenzung, Kraftbegrenzung, Kollisionsvermeidung und sicherheitsgerichtete überwachte Stopps werden in der zertifizierten Sicherheits-SPS der Robotersteuerung umgesetzt — unabhängig vom KI-Inferenzpfad und hierarchisch über ihm. Das KI-System operiert innerhalb der Sicherheitshülle; es definiert sie nicht.

ISO 10218-1/2

Roboter und Robotikgeräte — Sicherheitsanforderungen für Industrieroboter

ISO 10218-1 betrifft Roboterhersteller; ISO 10218-2 betrifft Systemintegratoren von Robotern. Gemeinsam definieren sie die Sicherheitsanforderungen für Entwurf, Installation und Schutz von Industrierobotern. KI-gesteuerte Roboter müssen dieselben mechanischen und schutztechnischen Anforderungen erfüllen wie konventionell programmierte Roboter. ISO 10218-2 ist die für Physical-AI-Einsätze relevanteste Integrationsnorm.

KI-Implikation

Eine per Sim-to-Real trainierte Policy ist ein Steuerungssystem. Ihre Ausgaben (Gelenkgeschwindigkeiten, Kräfte) müssen durch sicherheitsgerichtete überwachte Stopps und Geschwindigkeits-/Kraftbegrenzung begrenzt werden — Funktionen, die in der Sicherheits-SPS der Robotersteuerung umgesetzt werden müssen, nicht im KI-Inferenz-Stack.

ISO TS 15066

Roboter und Robotikgeräte — Kollaborierende Roboter

ISO TS 15066 spezifiziert Anforderungen an kollaborierende Robotersysteme, die in Szenarien direkten Mensch-Roboter-Kontakts betrieben werden. Sie definiert vier kollaborierende Betriebsarten: sicherheitsgerichteter überwachter Stopp, Handführung, Geschwindigkeits- und Abstandsüberwachung (SSM) sowie Leistungs- und Kraftbegrenzung (PFL). Für KI-gesteuerte Cobots sind SSM und PFL die relevantesten Betriebsarten.

KI-Implikation

KI-Policies müssen die vom SSM-System berechneten dynamischen Sicherheitszonen einhalten. Die Policy-Ausgaben müssen ratenbegrenzt und begrenzt werden, bevor sie die Servo-Schicht erreichen. Das KI-Inferenzsystem ist nicht das Sicherheitssystem — es operiert innerhalb der vom Cobot-Controller definierten Sicherheitshülle.

IEC 61508

Funktionale Sicherheit sicherheitsbezogener E/E/PE-Systeme

IEC 61508 ist die grundlegende Norm zur funktionalen Sicherheit für elektrische, elektronische und programmierbar elektronische Systeme. Sie definiert Sicherheits-Integritätslevel (SIL 1–4) und den systematischen Prozess zur Entwicklung und Validierung sicherheitsbezogener Software. Ihre branchenspezifischen Ableitungen (IEC 62061 für Maschinen, ISO 26262 für die Automobilindustrie) regeln Sicherheitssysteme von Industrierobotern unmittelbar.

KI-Implikation

KI-Inferenzkomponenten, die an Sicherheitsfunktionen beteiligt sind (z. B. Kollisionsvermeidung, Kraftbegrenzung), müssen hinsichtlich funktionaler Sicherheit bewertet werden. In der Praxis besteht der Ansatz darin, den KI-Inferenzpfad im nicht sicherheitsgerichteten Kanal zu halten und Sicherheitsfunktionen unabhängig in einer zertifizierten Sicherheits-SPS oder der Sicherheitsschicht der Robotersteuerung umzusetzen. Die Architektur trennt KI-Autonomie von der Sicherheitsdurchsetzung.

EU Machinery Regulation (2023/1230)

EU-Maschinenverordnung — Ersatz für die Maschinenrichtlinie 2006/42/EG

Die neue EU-Maschinenverordnung (ab 2027 vollständig anwendbar) befasst sich ausdrücklich mit autonomen Maschinen und kollaborierenden Robotern. Sie verlangt Risikobeurteilungen für autonome Entscheidungsfunktionen und führt Anforderungen für Maschinen ein, die ihr Verhalten anpassen können. KI-gesteuerte Industrieroboter fallen eindeutig in ihren Anwendungsbereich.

KI-Implikation

KI-gesteuerte Industrieroboter, die nach 2027 auf dem EU-Markt in Verkehr gebracht werden, müssen ein Konformitätsbewertungsverfahren nach der Maschinenverordnung durchlaufen. Anforderungen an Entwurfsdokumentation, Risikobeurteilung und Marktüberwachung gelten für das KI-Steuerungssystem, nicht nur für die mechanische Struktur.

Warum Hyperion

Im Folgenden eine sachliche Darstellung des Hintergrunds von Hyperion in Bezug auf Sim-to-Real-Robotik-Einsätze. Dies sind belegte Fakten, keine Marketingaussagen.

Auralink: ROS-2-Brücke und verteilte Agenten-Arbitrierung

Hyperion hat Auralink entwickelt — eine Edge-deployte Agentenplattform mit 200 eigenen Services und 24 KI-Agenten. Auralink umfasst eine ROS-2-Brücke zur Steuerung physischer Infrastruktur und eine Schicht zur verteilten Agenten-Arbitrierung, das im arXiv-Preprint 2603.08736 beschriebene Architekturmuster. Die Systemarchitektur, die Multi-Agenten-Arbitrierung über verteilte Edge-Knoten ermöglicht — Planung, Wahrnehmung und Aktorik —, lässt sich direkt auf Industrierobotik-Einsätze übertragen. Das ist nicht hypothetisch; es ist eine Produktions-Codebasis (etwa 1,7 Mio. Codezeilen).

arXiv-Preprint: Autonomous Edge-Deployed AI Agents (2603.08736)

Ein auf arXiv veröffentlichter Preprint (2603.08736) behandelt autonome, Edge-deployte KI-Agenten für physische Infrastruktur — und adressiert die Herausforderungen verteilter Koordination, Zustandsschätzung und Echtzeitsteuerung, die den Sim-to-Real-Einsatz prägen. Hinweis: Dies ist ein Preprint, keine peer-reviewte Veröffentlichung. Seine Relevanz ist hier architektonisch: Die beschriebenen Muster zur Agenten-Koordination und Edge-Inferenz sind unmittelbar auf Einsätze in industriellen Roboterzellen anwendbar.

Ein Portfolio von KI-Ventures, ~2,4 Mio. Codezeilen

Hyperion hat ein Portfolio von KI-Ventures aufgebaut — interne F&E, nicht in Produktion. Die architektonische Tiefe, die zum Aufbau und Betrieb dieses Portfolios erforderlich ist — über Edge-Inferenz, Multi-Agenten-Koordination, ROS-2-Brücken und souveränen KI-Einsatz hinweg —, ist dieselbe Tiefe, die für Sim-to-Real-Robotikarbeit erforderlich ist. Das ist keine allgemeine KI-Beratung; es ist Systemtechnik.

17+ Jahre in Automobil- und eingebetteten Systemen

Gründer Mohammed Cherifi verbrachte über 17 Jahre in der Automobil- und Embedded-Systems-Entwicklung, darunter Tätigkeiten bei der Renault-Nissan-Mitsubishi Alliance, Cisco und ABB. Dieser Hintergrund bedeutet, dass Hyperion die betrieblichen Randbedingungen von Produktionsumgebungen — Anforderungen an die Sicherheitszertifizierung, Echtzeit-Steuerungsarchitekturen und die Lücke zwischen Laborvorführungen und Einsätzen in der Werkhalle — aus direkter Erfahrung versteht.

Ehrliche Abgrenzung des Leistungsumfangs: kein Robotik-OEM

Hyperion fertigt keine Roboter, liefert keine zertifizierten Sicherheits-SPS und ist kein Hardware-Integrator. Das Engagement-Modell umfasst KI-Architektur, Sim-to-Real-Pipeline-Design, Methodik des Policy-Trainings und Edge-Inferenz-Einsatz — in Zusammenarbeit mit dem Roboter-OEM und dem Systemintegrator, nicht als deren Ersatz. Diese Abgrenzung ist wichtig: Das richtige Engagement mit Hyperion ist jenes, bei dem Ihr OEM die Hardware übernimmt und Hyperion die Intelligenzschicht.

Praktische Einsatzüberlegungen

Ein produktiver Sim-to-Real-Einsatz ist ein systemtechnisches Projekt. Im Folgenden die Entscheidungspunkte, die jedes Robotik-Team bei der Integration adressieren muss.

Edge-Inferenz-Hardware

Policy-Inferenz für Manipulation läuft typischerweise mit 10–50 Hz. NVIDIA Jetson AGX Orin (275 TOPS INT8) bewältigt Echtzeit-Inferenz für transformer-basierte Policies bis ~200M Parameter bei 30 Hz. Größere Policies (VLA-Skala, 7B+) erfordern einen GPU-Rechenknoten in der Zelle statt Edge-Hardware pro Roboter. Das AMD Kria K26 SOM ist eine Alternative für kostensensitive Einsätze bei kleineren Modellgrößen.

ROS-2-Integrationsarchitektur

Der Policy-Knoten in ROS 2 abonniert Beobachtungs-Topics (Kamerastreams, Gelenkzustände, Kraft/Moment) und veröffentlicht Aktions-Topics (Gelenkgeschwindigkeitsbefehle oder kartesische Posenziele). Das ros2_control-Framework verbindet sich über Hardware-Interface-Plugins mit der Robotersteuerung. Ein separater Sicherheits-Watchdog-Knoten überwacht die Inferenzlatenz und löst einen sicherheitsgerichteten Stopp aus, wenn der Policy-Knoten seine Frist verfehlt.

Policy-Versionierung und Rollback

Jede eingesetzte Policy-Version muss zusammen mit ihrer Trainingskonfiguration, ihren Domänen-Randomisierungsparametern und ihren Bewertungsmetriken versioniert werden. Ein Rollback-Verfahren muss vor dem Produktionseinsatz definiert und getestet werden. In der Praxis: mindestens zwei Policy-Versionen auf der Edge-Recheneinheit vorhalten, mit einem Hardware-Schalter oder einem ROS-2-Parameter zum Zurücksetzen auf die vorherige Version.

Überwachung des Verteilungs-Shifts

Reale Bedingungen weichen mit der Zeit von der Trainingsverteilung ab: Greiferverschleiß ändert die Reibung, das Erscheinungsbild der Objekte ändert sich mit dem Produktionslos, die Beleuchtung ändert sich saisonal. Ein Laufzeitmonitor, der die Policy-Unsicherheit verfolgt (Ensemble-Uneinigkeit oder MC-Dropout-Varianz) und eine menschliche Prüfung auslöst, wenn die Konfidenz unter einen Schwellenwert fällt, ist für produktionsreife Autonomie unerlässlich.

Trennung der Sicherheitsarchitektur

Die KI-Policy läuft im nicht sicherheitsgerichteten Kanal. Sicherheitsfunktionen (Geschwindigkeitsbegrenzung, Kraftbegrenzung, Kollisionsvermeidung per Sicherheitsscanner) laufen in der zertifizierten Sicherheits-SPS der Robotersteuerung, unabhängig vom KI-Inferenz-Stack. Diese Architektur erlaubt es der KI-Schicht, sicher auszufallen, ohne sich darauf zu verlassen, dass das KI-System seine eigenen Ausfälle erkennt. Die Sicherheits-SPS muss nach IEC 62061 auf den entsprechenden SIL ausgelegt sein.

Daten-Schwungrad: Fehlerprotokollierung

Jeder Policy-Fehler auf der Hardware — verfehlter Griff, unerwarteter Kontakt, ausgelöste Wiederherstellung — sollte mit dem vollständigen Beobachtungsfenster (Kamerabilder, Gelenkzustände, Sensormesswerte) und der ergriffenen Aktion protokolliert werden. Dieser Fehlerdatensatz treibt die nächste Runde der Domänen-Randomisierungs-Erweiterung und Feinabstimmung an. Ohne systematische Fehlerprotokollierung kann sich die Policy nach dem Einsatz nicht verbessern.

Zugehörige Hyperion-Services

Physical-AI-Deployment

End-to-End-Design der Sim-to-Real-Pipeline und Edge-Inferenz-Einsatz

Domain Expert LLM Lab

Feinabstimmung von Vision-Language-Modellen auf den Daten Ihrer Roboterzelle

KI-Strategie — Beratung

Scoping, Architektur und Technologieauswahl für Robotik-KI-Projekte

Häufig gestellte Fragen

Was ist die Sim-to-Real-Lücke und warum ist sie schwer zu schließen?

Die Sim-to-Real-Lücke ist die Leistungsminderung, die eine Roboter-Policy beim Transfer von einer Simulationsumgebung auf physische Hardware erfährt. Sie entsteht, weil kein Simulator die reale Physik (Kontaktdynamik, Aktorverhalten, Sensorrauschen) oder das Erscheinungsbild (Beleuchtung, Textur, Tiefenkamerarauschen) perfekt erfasst. Domänen-Randomisierung verringert die Lücke durch Training über eine breite Verteilung von Simulationsbedingungen, doch eine Restlücke bleibt stets bestehen und muss durch Systemidentifikation, Hardware-Adaption oder Feinabstimmung auf realen Daten geschlossen werden.

Wie viele reale Daten werden nach dem Sim-Vortraining benötigt?

Das hängt stark von der Aufgabenkomplexität, der Qualität der Domänen-Randomisierung und der verwendeten Transfermethode ab. Gut konzipierte Sim-to-Real-Pipelines mit aggressiver Domänen-Randomisierung können einen nahezu Zero-Shot-Transfer für Manipulationsaufgaben mit strukturierten Arbeitsräumen erreichen (Montage mit festen Objektpositionen). Für Aufgaben mit hoher Wahrnehmungsvariabilität (Bin-Picking zufällig orientierter Objekte) sind 100–500 reale Demonstrationen zur Feinabstimmung typisch. Residual-Policy-Ansätze (bei denen die Sim-Policy durch ein auf wenigen realen Daten trainiertes Residuum ergänzt wird) können mit nur 20–50 realen Trajektorien funktionieren.

Ist NVIDIA Isaac Sim erforderlich, oder können wir Open-Source-Alternativen nutzen?

Isaac Sim ist nicht erforderlich. MuJoCo (kostenlos, hohe Physikgenauigkeit) und Gazebo Harmonic (Open Source, native ROS-2-Unterstützung) sind beide produktionsreife Alternativen. Die Plattformwahl sollte sich nach dem Aufgabentyp richten (kontaktreiche Manipulation begünstigt die Physik von MuJoCo; ROS-2-Integration begünstigt Gazebo; das Training visueller Policies begünstigt die Renderingqualität von Isaac Sim) sowie nach der Ziel-Inferenz-Hardware (NVIDIA-Edge-Rechenleistung integriert sich sauberer mit dem Isaac-Ökosystem). Hyperion bevorzugt keine Plattform und unterhält keine kommerzielle Beziehung zu einem Simulator-Anbieter.

Wie interagieren KI-trainierte Policies mit den Sicherheitsanforderungen von ISO 10218 und ISO TS 15066?

Sicherheitsnormen gelten für das Robotersystem, nicht speziell dafür, wie der Roboter programmiert ist. Eine KI-trainierte Policy ist ein Steuerungsprogramm: Ihre Ausgaben (Gelenkgeschwindigkeiten, kartesische Befehle) müssen durch dieselben sicherheitsgerichteten Funktionen begrenzt werden, die für jedes Roboterprogramm erforderlich sind — sicherheitsgerichtete überwachte Stopps, Geschwindigkeits- und Kraftbegrenzung. Das entscheidende Architekturprinzip ist, dass die KI-Inferenz im nicht sicherheitsgerichteten Kanal läuft und die Sicherheitsdurchsetzung unabhängig in der zertifizierten Sicherheits-SPS der Robotersteuerung umgesetzt wird. Das KI-System kann nicht das Sicherheitssystem sein.

Was ist eine Vision-Language-Action-Policy (VLA) und wann ist sie angemessen?

Eine VLA-Policy ist eine Roboter-Steuerungs-Policy, die auf einem vortrainierten Vision-Language-Modell-Backbone (VLM) aufbaut und so feinabgestimmt ist, dass sie Roboteraktionen direkt ausgibt. Das VLM liefert ein reiches semantisches Szenenverständnis und ermöglicht eine Zero-Shot-Generalisierung auf neuartige, in natürlicher Sprache beschriebene Objekte. VLA-Policies sind angemessen, wenn die Aufgabe ein semantisches Szenenverständnis erfordert — „die Befestigung aus dem beschrifteten Behälter nehmen“ — und wenn ein großes vortrainiertes Modell auf Roboter-Demonstrationen feinabgestimmt werden kann. Für reine Lokomotion oder hochfrequente kontaktreiche Aufgaben, bei denen kleinere, schnellere Policies genügen, sind sie weniger geeignet.

Wie unterscheidet sich die virtuelle Inbetriebnahme vom simulationsbasierten Training?

Simulationsbasiertes Training erzeugt die Roboter-Policy. Die virtuelle Inbetriebnahme validiert, dass die trainierte Policy innerhalb der vollständigen Produktionszelle korrekt funktioniert — einschließlich SPS-Logik, Fördererzeitsteuerung, Roboter-zu-Roboter-Koordination und Sicherheitsverriegelungssequenzen — bevor physische Hardware eingesetzt wird. Die virtuelle Inbetriebnahme erkennt Integrationsfehler, die das Trainingssimulation nicht modelliert: Eine isoliert korrekt funktionierende Policy kann versagen, wenn der vorgelagerte Förderer Teile in unregelmäßigen Abständen liefert oder wenn die Bewegung eines benachbarten Roboters unerwartete Arbeitsraumkonflikte erzeugt.

Liefert oder zertifiziert Hyperion Roboter-Hardware oder Sicherheitssysteme?

Nein. Der Leistungsumfang von Hyperion ist KI-Architektur: Sim-to-Real-Pipeline-Design, Methodik des Policy-Trainings, Edge-Inferenz-Einsatz und ROS-2-Integration. Hardwareauswahl, mechanische Integration, CE-Kennzeichnung und Zertifizierung der Sicherheits-SPS werden vom Roboter-OEM und vom zertifizierten Systemintegrator durchgeführt. Hyperion arbeitet mit diesen Partnern zusammen; es ersetzt sie nicht. Diese Abgrenzung ist wichtig: Eine KI-Beratungsfirma für Hardwarelieferung oder Sicherheitszertifizierung heranzuziehen, ist eine Fehlbesetzung des Leistungsumfangs.

Wie sieht der typische Zeitrahmen für ein Sim-to-Real-Projekt vom Scoping bis zur Produktion aus?

Ein fokussiertes Projekt — eine Aufgabe, ein Robotermodell, ein Arbeitsraum — dauert typischerweise 12–20 Wochen vom Scoping bis zu den ersten Produktionsversuchen. Das gliedert sich wie folgt: 2–4 Wochen für die Einrichtung der Simulationsumgebung und die Systemidentifikation; 4–6 Wochen für das Policy-Training mit Domänen-Randomisierung; 2–4 Wochen für den Sim-to-Real-Transfer und Hardwareversuche; 2–4 Wochen für die virtuelle Inbetriebnahme und die Produktionsintegration. Komplexe Mehrfachaufgaben- und Mehrroboter-Einsätze mit neuartigen Objektkategorien und Anforderungen an die Sicherheitszertifizierung können sich auf 6–12 Monate erstrecken.

Quellen und Referenzen

Tobin, J. et al. (2017). "Domain Randomization for Transferring Deep Neural Networks from Simulation to the Real World."

Kontext: IEEE/RSJ IROS 2017. Wegweisende Arbeit, die Domänen-Randomisierung als Sim-to-Real-Transfertechnik für robotisches Greifen mithilfe synthetischer Trainingsdaten einführt.

Kumar, A. et al. (2021). "RMA: Rapid Motor Adaptation for Legged Robots."

Kontext: Robotics: Science and Systems (RSS) 2021. Führt das Teacher-Student-Adaptionsframework ein, das einen Zero-Shot-Sim-to-Real-Transfer für Vierbeiner-Lokomotion ermöglicht, indem ein Adaptionsmodul aus privilegiertem Simulationskontext gelernt wird.

Chi, C. et al. (2023). "Diffusion Policy: Visuomotor Policy Learning via Action Diffusion."

Kontext: Robotics: Science and Systems (RSS) 2023. Führt diffusionsbasierte Aktionsgenerierung für die Robotermanipulation ein; demonstriert einen starken Realwelt-Transfer aus Simulationsdemonstrationen.

Zhao, T. et al. (2023). "Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware."

Kontext: IEEE/RSJ IROS 2023 (ACT-Arbeit). Führt Action Chunking with Transformers für die beidhändige Manipulation ein; demonstriert einen Transfer von 50–200 Teleoperations-Demonstrationen auf reale Hardware.

Open Robotics / OSRF (2024). "Gazebo Harmonic Documentation."

Kontext: Offizielle Dokumentation zur physikalischen Simulation Gazebo Harmonic, zur ROS-2-Integration über gz_ros2_control und zur Sensor-Plugin-API.

NVIDIA Corporation (2024). "Isaac Lab: GPU-Accelerated Robot Learning."

Kontext: Offizielle Dokumentation zu NVIDIA Isaac Lab (Nachfolger von Isaac Gym): Training in parallelen Umgebungen, API zur Domänen-Randomisierung, Pipeline zum Import von Roboter-Assets.

DeepMind / Google (2024). "MuJoCo Physics Engine Documentation."

Kontext: Offizielle MuJoCo-Dokumentation zu Kontaktdynamikmodellen, dem MJCF-Format und dem MJX-JAX-Port für GPU-parallele Simulation.

ISO (2011). "ISO 10218-1/2: Safety Requirements for Industrial Robots."

Kontext: Internationale Norm mit Sicherheitsanforderungen für den Entwurf von Industrierobotern (Teil 1: Roboterhersteller) und die Systemintegration (Teil 2: Integrator). Überarbeitung im Gange (Stand 2024).

ISO (2016). "ISO/TS 15066: Collaborative Robots."

Kontext: Technische Spezifikation für kollaborierende Robotersysteme: vier Betriebsarten, biomechanische Schmerzschwellengrenzwerte für Leistungs- und Kraftbegrenzung sowie Anforderungen an die Geschwindigkeits- und Abstandsüberwachung.

IEC (2010). "IEC 61508: Functional Safety of E/E/PE Safety-Related Systems."

Kontext: Grundlegende Norm zur funktionalen Sicherheit; definiert die Level SIL 1–4 und systematische Anforderungen an den Sicherheitslebenszyklus. Übergeordnete Norm zu IEC 62061 (Maschinen) und ISO 26262 (Automobil).

Hyperion Consulting (2026). "arXiv preprint 2603.08736: Autonomous Edge-Deployed AI Agents for Physical Infrastructure."

Kontext: Preprint des Hyperion-Gründers (nicht peer-reviewt) zur verteilten Agenten-Arbitrierung und ROS-2-Brückenarchitektur für Edge-deployte KI-Systeme. Die Architekturmuster sind unmittelbar auf Einsätze in industriellen Roboterzellen anwendbar.

Bereit, die Sim-to-Real-Lücke zu schließen?

Ob Sie Ihre erste Sim-to-Real-Pipeline für eine Manipulationszelle entwerfen oder diagnostizieren, warum eine trainierte Policy auf der Hardware unterdurchschnittlich abschneidet — die früh getroffenen Architekturentscheidungen prägen alles Weitere. Hyperion bringt über 17 Jahre Erfahrung in Embedded Systems und Fertigungstechnik mit, ergänzt um eine produktive Erfolgsbilanz bei Edge-deployten KI-Agentensystemen. Beginnen Sie mit einem Gespräch.

Physical-AI-Beratungsleitfaden

Mohammed Cherifi

Gründer & Leiter KI-Strategie

Mohammed Cherifi ist der Gründer von Hyperion Consulting und verfügt über mehr als 17 Jahre Erfahrung in der Automobil- und Embedded-Systems-Entwicklung. Er ist auf Physical-AI-Einsätze spezialisiert — und bringt operative Erfahrung von der Renault-Nissan-Mitsubishi Alliance, Cisco und ABB in die Industrierobotik und die Edge-Inferenz-Architektur ein.

Zugehörige Ressourcen

Physical-AI-Deployment

End-to-End-Design der Sim-to-Real-Pipeline und Edge-Inferenz-Einsatzdienste

Physical-AI-Beratungsleitfaden

Der 6-schichtige Physical AI Stack für Robotik, Edge-KI und industrielle Automatisierung

Mistral On-Premise einsetzen

Souveräne KI für die Fertigung: Mistral-Einsatz on-premise und in abgeschotteten Umgebungen

Leitfaden zur EU-KI-Verordnung

Compliance-Anforderungen für Hochrisiko-KI-Systeme in industriellen Umgebungen