Video2GUI: Synthese van grootschalige interactietrajectoria voor algemene pretraining van GUI-agents

Hoe ongesuperviseerde trajectsynthese de databottleneck doorbreekt voor cross-platform GUI-automatisering op enterprise schaal

Inleiding: Het GUI-automatiseringsparadox en waarom dataschaarste de bottleneck is

Het enterprise softwarelandschap zit gevangen in een paradox: hoewel multimodale large language models (LLM's) menselijke prestaties hebben bereikt op complexe redeneertaken, blijft 70% van de enterprise software-interacties afhankelijk van handmatige GUI-gebaseerde workflows McKinsey & Company. Deze kloof vertegenwoordigt een aanzienlijke automatiseringskans, maar de weg ernaartoe wordt geblokkeerd door een fundamentele beperking—dataschaarste in de training van GUI-agents. Bestaande datasets zoals RICO (~66k trajectoria) en Mind2Web (~2k trajectoria) zijn ordes van grootte te klein om algemene agents te trainen die kunnen opereren op web-, mobiele en desktopplatforms arXiv (RICO en Mind2Web papers). Het Video2GUI-framework doet zijn intrede als oplossing voor deze bottleneck, door gebruik te maken van ongesuperviseerde leertechnieken om interactietrajectoria te extraheren uit ruwe schermopnames, waardoor de afhankelijkheid van gelabelde data wordt verminderd arXiv.

De opkomst van multimodale LLM's en de GUI-agentkans

De convergentie van multimodale LLM's (bijv. GPT-4V, Gemini, LLaVA) en foundation models voor UI-begrip (bijv. Microsoft’s UI-T5, Google’s Screen Understanding models) heeft nieuwe mogelijkheden voor GUI-automatisering ontsloten Microsoft Research. Deze modellen kunnen:

Hiërarchische UI-structuren parsen (bijv. DOM-bomen, Android view hierarchies) uit ruwe pixels.
Natuurlijke taalinstructies koppelen (bijv. "Boek een vlucht naar Berlijn") aan specifieke UI-elementen (bijv. een dropdownmenu "Vertrekstad").
Meerstaps trajecten plannen (bijv. "Inloggen → Naar instellingen navigeren → Profielfoto bijwerken") over heterogene platforms.

Ondanks deze vooruitgang blijft de inzet beperkt tot smalle, hoogwaardige use cases (bijv. klantenservicebots, data-invoerautomatisering) vanwege het gebrek aan diverse, grootschalige trainingsdata. De Physical AI Stack biedt een nuttig kader om deze kloof te begrijpen:

SENSE: GUI-agents moeten dynamische UI-states waarnemen (bijv. modale dialogen, laadspinners) over verschillende resoluties, beeldverhoudingen en platforms.
REASON: Agents moeten generaliseren over UI-paradigma's (bijv. webformulieren vs. mobiele swipe-gebaren) en zich aanpassen aan onbekende applicaties.
ORCHESTRATE: Enterprise-implementaties vereisen coördinatie tussen edge-apparaten (bijv. RPA-bots) en cloud-inferentie (bijv. LLM-gebaseerde planning).

Huidige datasets slagen er niet in deze lagen holistisch aan te pakken. Bijvoorbeeld:

RICO richt zich op mobiele apps en mist web/desktop-dekking ACM Digital Library.
Mind2Web is uitsluitend voor web en beperkt tot 2.000 trajectoria, onvoldoende voor cross-platform generalisatie arXiv.
Handmatige curatie (bijv. crowdsourcing) is kostentechnisch onhaalbaar op schaal, met annotatiekosten van meer dan $0,50 per traject voor complexe workflows arXiv (Video2GUI Paper).

Het economische belang: waarom GUI-automatisering een kritieke kans is

Bedrijven besteden jaarlijks $1,8 biljoen aan digitale transformatie, maar blijft 70% van de software-interacties handmatig McKinsey & Company. GUI-automatisering richt zich op deze inefficiëntie door:

Operationele kosten te verlagen: Automatisering van repetitieve taken (bijv. factuurverwerking, klantonboarding) kan arbeidskosten verlagen.
Nauwkeurigheid te verbeteren: GUI-agents elimineren menselijke fouten bij data-invoer (bijv. typefouten, verkeerde klikken).
24/7 operaties mogelijk te maken: In tegenstelling tot menselijke medewerkers kunnen agents continu werken (bijv. nachtelijke batchverwerking).

Het gebrek aan algemene agents dwingt bedrijven echter om:

Op maat gemaakte bots te bouwen voor elke applicatie (bijv. één voor SAP, een andere voor Salesforce), wat de onderhoudskosten verhoogt.
Te vertrouwen op brosse selectors (bijv. XPath, CSS) die breken bij UI-updates.
Automatisering te beperken tot taken met lage complexiteit (bijv. formulierinvullen) vanwege slechte generalisatie.

De dataschaarste-bottleneck: waarom bestaande datasets tekortschieten

Om een algemene GUI-agent te trainen, moet een dataset aan drie criteria voldoen:

Schaal: Miljoenen trajectoria om edge cases te dekken (bijv. foutmeldingen, zeldzame UI-patronen).
Diversiteit: Dekking van cross-platform (web, mobiel, desktop) en cross-domeintaken (bijv. e-commerce, gezondheidszorg).
Realisme: Trajectoria moeten real-world ruis weerspiegelen (bijv. netwerklatentie, gedeeltelijke occlusies).

Bestaande datasets schieten op alle drie de fronten tekort:

Dataset	Trajectoria	Platforms	Annotatiemethode	Beperkingen
RICO	~66k	Mobiel	Crowdsourced	Geen web/desktop; beperkte diversiteit ACM Digital Library
Mind2Web	~2k	Web	Expert-gelabeld	Kleine schaal; geen mobiel/desktop arXiv
WebGUM	~10k	Web	Synthetisch (regelgebaseerd)	Beperkt tot web; onrealistische acties arXiv
ScreenAI	~100k	Mobiel/Desktop	Hybride (synthetisch + real)	Geen cross-platform generalisatie arXiv

Belangrijkste faalmodi:

Handmatige annotatie is niet schaalbaar: Het labelen van één traject (bijv. "Boek een vlucht") kan 5-10 minuten duren, met kosten van $0,50-$1,00 per sample arXiv (Video2GUI Paper).
Synthetische data is onrealistisch: Regelgebaseerde generatoren (bijv. WebGUM) produceren deterministische, ruisvrije trajectoria die niet generaliseren naar real-world UI's.
Platformsilos: Agents getraind op webdata falen bij overdracht naar mobiel/desktop (bijv. een "swipe"-gebaar heeft geen web-equivalent).

Video2GUI: Ongesuperviseerde trajectsynthese als krachtversterker

Video2GUI herformuleert het probleem door ruwe schermopnames als databron te behandelen in plaats van te vertrouwen op gelabelde trajectoria. De pipeline bestaat uit vier fasen:

Loading diagram...

Opname: Ruwe schermopnames vastleggen (bijv. desktop sessies, mobiel app-gebruik) met tools zoals OpenCV en FFmpeg.
Parsen: UI-elementen (bijv. knoppen, tekstvelden) en acties (bijv. klikken, scrollen) extraheren met:
- OCR (Tesseract) voor tekstextractie.
- Objectdetectie (YOLO, Faster R-CNN) voor UI-elementen.
- Contrastief leren (SimCLR) om vergelijkbare UI-states te clusteren.
Synthetiseren: Synthetische trajectoria genereren door:
- Aannemelijke actiesequenties te bemonsteren (bijv. "Klik op inloggen → Voer inloggegevens in → Verzenden").
- Te verrijken met ruis (bijv. willekeurige vertragingen, gedeeltelijke occlusies) om het realisme te verbeteren.
Valideren: Trajectoria filteren met:
- Heuristieken (bijv. "Een inlogformulier moet een verzendknop hebben").
- Human-in-the-loop (bijv. crowdsourced kwaliteitscontroles voor een subset van de samples).

Belangrijke innovaties:

Ongesuperviseerd leren: Elimineert de noodzaak voor handmatige labels door gebruik te maken van zelf-gesuperviseerd contrastief leren (SimCLR) om vergelijkbare UI-states te groeperen arXiv (Video2GUI Paper).
Cross-platform generalisatie: Trajectoria worden gesynthetiseerd voor web, mobiel en desktop met behulp van een geünificeerde actieruimte (bijv. "CLICK", "TYPE", "SCROLL").
Kostenefficiëntie: Verlaagt annotatiekosten met 50-70% vergeleken met handmatige labeling arXiv (Video2GUI Paper).

Benchmarking van Video2GUI tegenover bestaande datasets

De 1,2 miljoen synthetische trajectoria van Video2GUI overtreffen bestaande datasets in schaal en diversiteit:

Metriek	Video2GUI	RICO	Mind2Web	WebGUM
Trajectoria	1,2M	~66k	~2k	~10k
Platforms	Web, Mobiel, Desktop	Mobiel	Web	Web
Annotatiekosten	$0,10-$0,20/traj	$0,50+/traj	$1,00+/traj	$0,30/traj
Cross-platformtaken	Ja	Nee	Nee	Nee
Real-world ruis	Ja (verrijkt)	Nee	Nee	Nee

Prestatie-impact:

Agents getraind op Video2GUI behalen 20-30% hogere taakvoltooiingspercentages in cross-platform scenario's (bijv. "Boek een hotel" op web en mobiel) arXiv (Video2GUI Paper).
Generalisatie naar onbekende apps: Video2GUI-getrainde agents presteren 15-25% beter op zero-shot taken (bijv. navigeren in een nieuw CRM-systeem) vergeleken met agents getraind op RICO of Mind2Web.

De Physical AI Stack: Video2GUI implementeren in enterprise workflows

Video2GUI sluit aan bij de Physical AI Stack door aan de vereisten van elke laag te voldoen:

Laag	Rol van Video2GUI	Impact op enterprise
SENSE	Parseert ruwe schermopnames naar gestructureerde UI-elementen (bijv. knoppen, tekst).	Maakt waarneming over platforms mogelijk.
CONNECT	Ondersteunt edge-implementatie (bijv. on-premise verwerking voor GDPR-naleving).	Adresseert zorgen over datasoevereiniteit.
COMPUTE	Geoptimaliseerd voor on-device inferentie (bijv. mobiele agents) en cloudschaling.	Vermindert latentie voor realtime automatisering.
REASON	Traint agents om meerstaps trajecten te plannen over platforms.	Verbetert generalisatie naar onbekende apps.
ACT	Genereert realistische actiesequenties (bijv. klikken, swipen).	Maakt fysieke interactie met UI's mogelijk.
ORCHESTRATE	Coördineert agentvloten (bijv. RPA-bots + LLM-planners).	Schaal automatisering over workflows.

EU AI Act-naleving:

De on-premise implementatie van Video2GUI waarborgt datasoevereiniteit (bijv. schermopnames verlaten nooit het enterprisenetwerk).
Transparantie: Synthetische trajectoria zijn auditeerbaar (bijv. validatielogs, human-in-the-loop controles).
Risicobeperking: Hoogrisico use cases (bijv. gezondheidszorg, bankwezen) kunnen geïsoleerd worden van laagrisicotaken (bijv. klantenservice) Europees Parlement (EU AI Act).

Kernconcepten: Interactietrajectoria, multimodale grounding en de Physical AI Stack

1. Formele definitie van interactietrajectoria

Een interactietraject in GUI-automatisering is een tijdelijk geordende reeks van tupels $\tau = {(s_t, a_t, r_t, s_{t+1})}_{t=1}^T$, waarbij:

$s_t \in \mathcal{S}$ de state op tijdstip $t$ is, weergegeven als een multimodale tensor die combineert:
- Visuele state: Een $H

Video2GUI: Synthese van grootschalige interactietrajectoria voor algemene pretraining van GUI-agents

Inleiding: Het GUI-automatiseringsparadox en waarom dataschaarste de bottleneck is

De opkomst van multimodale LLM's en de GUI-agentkans

Het economische belang: waarom GUI-automatisering een kritieke kans is

De dataschaarste-bottleneck: waarom bestaande datasets tekortschieten

Video2GUI: Ongesuperviseerde trajectsynthese als krachtversterker

Benchmarking van Video2GUI tegenover bestaande datasets

De Physical AI Stack: Video2GUI implementeren in enterprise workflows

Kernconcepten: Interactietrajectoria, multimodale grounding en de Physical AI Stack

1. Formele definitie van interactietrajectoria

The 30% Report

Gerelateerde Artikelen

Wilt u deze ideeën bespreken?

Bronnen

AI Research Decoded: From Camera Cloning to Digital Colleagues – The Future of Embodied AI Workflows

CLI-Anything: Building Agent-Native Software from Zero to Production