AI-Forschung entschlüsselt: Der Aufstieg agentischer KI jenseits von Sprache

Die Forschung dieser Woche signalisiert einen entscheidenden Wandel: KI befreit sich aus dem sprachzentrierten Käfig. Von wissenschaftlichen Laboren bis zu Fabrikhallen verschmelzen die einflussreichsten Fortschritte nun Wahrnehmung, Logik und Handlung – ohne alles in Text zu zwängen. Für europäische Unternehmen bedeutet dies, ihre KI-Investitionen neu zu überdenken, jenseits von Chatbots und LLMs. Der Physical AI Stack wird Realität, und die Gewinner werden diejenigen sein, die ihn als Erste orchestrieren.

Vom Labor zur Produktionslinie: Wie Foundation Models den Sprach-Engpass überwinden

Zusammenarbeit heterogener wissenschaftlicher Foundation Models stellt Eywa vor, ein Framework, das domänenspezifischen Foundation Models (z. B. für Proteinfaltung, Materialspannungsanalyse oder Batteriechemie) die Zusammenarbeit mit Sprachmodellen ermöglicht – ohne alles in Text umzuwandeln. Der Durchbruch? Eine leichtgewichtige „Reasoning-Schnittstelle“, die zwischen nicht-sprachlichen Embeddings (wie molekularen Graphen oder Spektraldaten) und der Entscheidungslogik von LLMs übersetzt.

Warum ein CTO dies beachten sollte:

Wettbewerbsvorteil in F&E: Europäische Pharma-, Automobil- und Energieunternehmen geben Millionen für proprietäre wissenschaftliche Modelle aus. Eywa ermöglicht es diesen Modellen, miteinander und mit Geschäftslogik zu „kommunizieren“ – ohne geistiges Eigentum an cloudbasierte LLMs preiszugeben. Dies ist ein direkter Weg zu schnellerer Arzneimittelentdeckung oder Optimierung von Batteriezyklen.
Einsatzbereitschaft: Das Framework zielt darauf ab, die Zusammenarbeit zwischen domänenspezifischen Modellen und LLMs zu verbessern und potenziell die Genauigkeit bei wissenschaftlichen Aufgaben mit minimalen architektonischen Änderungen zu steigern. Für EU-Unternehmen, die der DSGVO unterliegen, ist die Möglichkeit, sensible Daten on-prem zu halten und gleichzeitig LLMs für die Orchestrierung zu nutzen, ein Game-Changer.
Kosteneffizienz: Anstatt ein 70B-LLM für das Verständnis von Massenspektrometrie feinzutunen, ermöglicht Eywa, das bestehende Massenspektrometrie-Modell beizubehalten und lediglich eine dünne Reasoning-Schicht hinzuzufügen. Erste Tests deuten darauf hin, dass Eywa die Rechenkosten durch Vermeidung vollständiger LLM-Feinabstimmung für domänenspezifische Aufgaben senken könnte Zusammenarbeit heterogener wissenschaftlicher Foundation Models.
Risiko: Das Framework setzt hochwertige Domänenmodelle voraus. Wenn Ihre wissenschaftlichen Daten verrauscht oder Ihre Modelle schwach sind, wird Eywa dies nicht magisch beheben. Überprüfen Sie zunächst Ihre Datenpipelines.

Verbindung zum Physical AI Stack: Eywa ist fest in der REASON-Schicht verankert, doch seine wahre Stärke liegt in der Verbindung von SENSE (domänenspezifische Datenerfassung) und ORCHESTRATE (Koordination von Workflows über Modalitäten hinweg). Beispielsweise könnte ein Renault-Nissan-Werk Eywa nutzen, um ein Vision-Modell (SENSE) zur Erkennung von Lackierfehlern, ein Physikmodell (REASON) zur Vorhersage von Korrosionsrisiken und ein LLM (ORCHESTRATE) zur Generierung von Wartungstickets einzusetzen – alles ohne Bilder in Text umzuwandeln.

Der erste native multimodale Agent: Warum GLM-5V-Turbo wichtiger ist als GPT-5

GLM-5V-Turbo: Auf dem Weg zu einem nativen Foundation Model für multimodale Agenten ist nicht einfach ein weiteres „Vision-LLM“. Es ist das erste Modell, das von Grund auf für agentische Workflows konzipiert wurde – bei denen Wahrnehmung, Logik und Handlung verschmelzen, statt nur zusammengefügt zu werden. Wichtige Innovationen:

Multimodale Wahrnehmung als zentrale Reasoning-Grundlage: GLM-5V-Turbo behandelt Bilder oder Videos nicht als „Kontext“ für die Textgenerierung. Stattdessen nutzt es sie, um das Reasoning einzuschränken und zu lenken (z. B. „Planen Sie den Weg eines Roboters um dieses Hindernis“ vs. „Beschreiben Sie dieses Bild“).
Hierarchische Optimierung: Das Modell wird in Stufen trainiert – zunächst für Wahrnehmungsaufgaben (z. B. OCR, Objekterkennung), dann für Tool-Nutzung (z. B. Aufruf einer CAD-API) und schließlich für End-to-End-agentische Aufgaben (z. B. „Entwerfen Sie eine Halterung, die diesen Spezifikationen und diesem 3D-Scan entspricht“).
Zuverlässige Verifikation: Das Team führte ein Sandbox-Verifikationssystem ein, um die Zuverlässigkeit agentischer Aktionen zu verbessern, z. B. durch Reduzierung halluzinierter Tool-Aufrufe.

Warum ein CTO dies beachten sollte:

Einsatzbereitschaft für die EU-Fertigungsindustrie: Die Fähigkeit von GLM-5V-Turbo, über multimodale Eingaben (z. B. Bilder, Text und strukturierte Daten) zu reasonen, macht es zu einem starken Kandidaten für Industry 5.0-Anwendungsfälle. Beispielsweise könnte ein Siemens-Werk es einsetzen, um:
- SENSE: Anomalien in Wärmebildkameras zu erkennen.
- REASON: Ursachen mithilfe von CAD-Schemata zu diagnostizieren.
- ACT: CNC-Maschinenparameter per API anzupassen.
- ORCHESTRATE: Den Vorfall in SAP zu protokollieren und das Wartungsteam zu benachrichtigen.
Kosteneffizienz: Das hierarchische Training des Modells bedeutet, dass Sie nur die für Ihren Anwendungsfall benötigten Schichten feinabstimmen können (z. B. GUI-Navigation für ERP-Systeme), was Cloud-Kosten reduziert.
Risiko: Die Studie weist darauf hin, dass „End-to-End-Verifikation noch fragil ist“. Für sicherheitskritische Anwendungen (z. B. medizinische Geräte) müssen Sie zusätzliche formale Verifikationswerkzeuge einsetzen.
EU AI Act-Konformität: Die Transparenz von GLM-5V-Turbo hinsichtlich Trainingsphasen und Verifikation entspricht den Anforderungen des AI Acts für Hochrisiko-KI-Systeme.

Verbindung zum Physical AI Stack: Dieses Modell ist ein REASON-Schicht-Kraftpaket, doch sein wahrer Wert liegt in der nahtlosen Verbindung zwischen SENSE (Wahrnehmung), REASON (Entscheidungslogik) und ACT (physische Ausgabe). Beispielsweise könnte ein Windkraftanlagenbetreiber es nutzen, um:

SENSE: Drohnenaufnahmen von Blattschäden zu analysieren.
REASON: Ausfallrisiken mithilfe von Physikmodellen vorherzusagen.
ACT: Eine Reparaturdrohne mit den richtigen Werkzeugen zu entsenden.
ORCHESTRATE: Das digitale Zwillingssystem zu aktualisieren und den Netzbetreiber zu informieren.

Intelligentere Exploration, günstigere Skalierung: Wie Latent Distilling LLM-Kosten senkt

Large Language Models Explore by Latent Distilling stellt Exploratory Sampling (ESamp) vor, einen Decoding-Trick, der LLMs dazu bringt, semantisch vielfältige Ausgaben zu generieren, ohne den üblichen Kompromiss zwischen Kreativität und Kohärenz einzugehen. Die zentrale Erkenntnis: LLMs sind schlecht darin, neue Ideen zu explorieren, weil sie standardmäßig „sichere“ Vorhersagen treffen. ESamp behebt dies durch:

Training eines kleinen „Distiller“-Modells zur Laufzeit, das die tiefen Schichtrepräsentationen des LLMs aus flachen vorhersagt.
Nutzung des Vorhersagefehlers des Distillers als „Neuheitssignal“, um Token-Wahrscheinlichkeiten während des Decodings neu zu gewichten.
Asynchrone Durchführung, sodass kaum Latenz entsteht (1,2 % Overhead in der optimierten Version).

Warum ein CTO dies beachten sollte:

Kosteneffizienz: ESamp steigert Pass@k (ein Maß dafür, wie viele Versuche zur Lösung eines Problems benötigt werden) um 20–40 % in Mathematik-, Wissenschafts- und Coding-Benchmarks Large Language Models Explore by Latent Distilling. Für Unternehmen bedeutet dies:
- Weniger API-Aufrufe an Cloud-LLMs (z. B. Mistral, Aleph Alpha) für komplexe Aufgaben wie Codegenerierung oder F&E-Brainstorming.
- Geringere Cloud-Kosten für die Generierung synthetischer Daten (z. B. zur Erstellung von Trainingsdaten für kleinere Modelle).
Einsatzbereitschaft: ESamp ist ein Drop-in-Ersatz für bestehende Sampling-Methoden (z. B. Top-k, Nucleus). Sie können es an einem Wochenende testen, indem Sie die Decoding-Strategie in Ihrer LLM-Pipeline austauschen.
Risiko: Die Studie weist darauf hin, dass ESamp am besten für „explorationsintensive“ Aufgaben (z. B. kreatives Schreiben, Hypothesengenerierung) funktioniert. Für Aufgaben, die strikte Konsistenz erfordern (z. B. Erstellung juristischer Dokumente), sollten Sie bei deterministischem Decoding bleiben.
EU-Kontext: Die Effizienz von ESamp entspricht dem EU-Vorstoß für „Green AI“. Durch die Reduzierung der Anzahl benötigter LLM-Aufrufe zur Lösung eines Problems sinkt der Energieverbrauch – ein zentraler Aspekt für Unternehmen, die der Corporate Sustainability Reporting Directive (CSRD) unterliegen.

Verbindung zum Physical AI Stack: ESamp ist eine REASON-Schicht-Optimierung, doch seine Auswirkungen reichen durch den gesamten Stack. Beispiel:

SENSE: Nutzen Sie ESamp, um vielfältige Hypothesen aus Sensordaten zu generieren (z. B. „Warum vibriert dieser Motor?“).
COMPUTE: Reduzieren Sie die Anzahl der On-Device-Inferenzen für Edge-AI-Aufgaben (z. B. vorausschauende Wartung an einer Windkraftanlage).
ORCHESTRATE: Verbessern Sie die Qualität synthetischer Daten, die zum Training kleinerer Modelle für die Workflow-Automatisierung verwendet werden.

Das Ende der „hübschen Bilder“: Warum visuelle KI auf Weltmodellierung umsteigt

Visuelle Generierung im neuen Zeitalter argumentiert, dass sich das Feld der visuellen KI von der „atomaren“ Bilderzeugung (z. B. Stable Diffusion) hin zu agentischer Weltmodellierung entwickelt – Systeme, die verstehen, warum sich Objekte bewegen, wie sich Szenen im Laufe der Zeit verändern und welche kausalen Regeln ihr Verhalten bestimmen. Die Studie führt eine 5-stufige Taxonomie ein:

Atomare Generierung: „Generieren Sie eine Katze.“
Bedingte Generierung: „Generieren Sie eine Katze mit Hut.“
Kontextuelle Generierung: „Generieren Sie eine Katze mit Hut, basierend auf diesem Foto meiner Katze.“
Agentische Generierung: „Generieren Sie ein Video einer Katze, die eine Tür öffnet, um an Futter zu kommen.“
Weltmodellierungs-Generierung: „Generieren Sie eine 3D-Simulation meiner Küche, in der die Katze lernt, den Kühlschrank über 10 Tage zu öffnen – unter Berücksichtigung von Physik, Hunger und dem Verhalten meines Mitbewohners.“

Warum ein CTO dies beachten sollte:

Wettbewerbsimplikationen: Die heutige visuelle KI ist eine Spielerei. Die von morgen wird ein Simulationsmotor sein, um Roboter zu trainieren, autonome Fahrzeuge zu testen oder Smart Cities zu entwerfen. Europäische Unternehmen aus den Bereichen Automobil, Robotik und Stadtplanung müssen jetzt mit Experimenten beginnen – oder riskieren, den Anschluss zu verlieren.
Einsatzbereitschaft: Die Studie hebt hervor, dass Flow Matching (eine neue Trainingstechnik) und vereinheitlichte Verständnis-Generierungsmodelle (z. B. GLM-5V-Turbo) entscheidende Enabler sind. Wenn Sie diese noch nicht testen, liegen Sie 12–18 Monate zurück.
Kosteneffizienz: Weltmodellierungssysteme können teure physische Prototypen ersetzen. Beispielsweise könnte ein Automobilhersteller Crashtests in einer virtuellen Welt simulieren, statt echte Fahrzeuge zu zerstören.
Risiko: Die Studie warnt, dass aktuelle Benchmarks (z. B. FID, CLIP-Scores) nutzlos für die Bewertung von Weltmodellierungssystemen sind. Sie müssen in domänenspezifische Metriken investieren.
EU AI Act: Weltmodellierungssysteme werden voraussichtlich als „Hochrisiko“-KI eingestuft. Beginnen Sie jetzt mit der Dokumentation Ihrer Datenquellen, Modellarchitekturen und Evaluierungsprotokolle.

Verbindung zum Physical AI Stack: Diese Studie ist ein Fahrplan für die REASON- und ORCHESTRATE-Schichten. Beispiel:

SENSE: Nutzen Sie reale Daten (z. B. LiDAR-Scans einer Fabrik), um Simulationen zu verankern.
REASON: Trainieren Sie ein Weltmodell, um Geräteausfälle oder Bewegungen von Mitarbeitern vorherzusagen.
ACT: Setzen Sie Roboter oder AR-Systeme ein, die vollständig in der Simulation trainiert wurden.
ORCHESTRATE: Nutzen Sie das Weltmodell, um Workflows zu optimieren (z. B. „Was passiert, wenn wir diese Maschine versetzen?“).

SLAM für die reale Welt: Open-Vocabulary-Kartierung ohne Laborbeschränkungen

RADIO-ViPE: Online Tightly Coupled Multi-Modal Fusion für Open-Vocabulary Semantic SLAM löst ein zentrales Problem für Robotik und AR: Wie man 3D-Karten dynamischer Umgebungen erstellt, ohne kalibrierte Kameras, Tiefensensoren oder statische Szenen vorauszusetzen. RADIO-ViPE funktioniert mit Rohvideomaterial (z. B. von einem Smartphone oder Roboter) und kann:

Natürlichsprachliche Abfragen (z. B. „der rote Stuhl nahe dem Fenster“) mit 3D-Regionen in der Karte verknüpfen.
Bewegliche Objekte (z. B. Personen, Gabelstapler) und Szenenänderungen (z. B. verschobene Möbel während der Kartierung) handhaben.
In Echtzeit auf Edge-Geräten laufen.

Warum ein CTO dies beachten sollte:

Einsatzbereitschaft für die EU-Robotik: Europäische Robotikunternehmen hatten Schwierigkeiten, SLAM in unstrukturierten Umgebungen (z. B. Lagerhallen, Krankenhäusern) einzusetzen. RADIO-ViPE macht teure LiDAR- oder Tiefenkameras überflüssig und senkt die Hardwarekosten um 60–80 %.
Wettbewerbsvorteil in AR/VR: Für Unternehmen wie PTC ermöglicht RADIO-ViPE Open-Vocabulary-AR-Overlays (z. B. „Zeigen Sie mir den Wartungsverlauf dieser Pumpe“), ohne vorab kartierte Umgebungen zu benötigen.
Kosteneffizienz: Das System nutzt Foundation Models (z. B. RADIO) für die multimodale Fusion und reduziert so den Bedarf an benutzerdefinierten Trainingsdaten. Dies ist entscheidend für EU-Unternehmen mit begrenztem KI-Budget.
Risiko: Die Studie weist darauf hin, dass die Leistung von RADIO-ViPE in „extrem unübersichtlichen“ Umgebungen (z. B. Baustellen) nachlässt. Für solche Anwendungsfälle müssen zusätzliche Sensoren oder Nachbearbeitungsschritte eingesetzt werden.
EU-Kontext: Die Fähigkeit des Systems, mit Rohvideos zu arbeiten, entspricht den Datensparsamkeitsprinzipien der DSGVO. Sie müssen keine 3D-Punktwolken speichern – nur die semantische Karte und Embeddings.

Verbindung zum Physical AI Stack: RADIO-ViPE erstreckt sich über die SENSE-, REASON- und ORCHESTRATE-Schichten:

SENSE: Erfasst Rohvideos und extrahiert multimodale Embeddings.
REASON: Verschmilzt Embeddings mit geometrischen Daten, um eine semantische Karte zu erstellen.
ORCHESTRATE: Ermöglicht natürlichsprachliche Abfragen.

AI-Forschung entschlüsselt: Der Aufstieg agentischer KI jenseits von Sprache

Vom Labor zur Produktionslinie: Wie Foundation Models den Sprach-Engpass überwinden

Der erste native multimodale Agent: Warum GLM-5V-Turbo wichtiger ist als GPT-5

Intelligentere Exploration, günstigere Skalierung: Wie Latent Distilling LLM-Kosten senkt

Das Ende der „hübschen Bilder“: Warum visuelle KI auf Weltmodellierung umsteigt

SLAM für die reale Welt: Open-Vocabulary-Kartierung ohne Laborbeschränkungen

The 30% Report

Verwandte Artikel

Möchten Sie diese Ideen besprechen?

Quellen

AI Research Decoded: The Rise of Autonomous AI Agents and Steerable Intelligence

AI Research Decoded: The Rise of Embodied and Self-Optimizing Agents