Lifecycle stage — Build
Dit is niet de Domain-Expert LLM Lab voor de private sector. Het is de adaptatie ervan voor de publieke sector. Een ministerie, een regionale gezondheidsautoriteit, een defensieagentschap, een nationale spoorwegexploitant of een smart-city-programma kan de standaardsamenwerking niet gebruiken, omdat die uitgaat van public-cloud-flexibiliteit en een commerciële verwerkersovereenkomst. De publieke-sector variant doet dat niet. Elke fase van de samenwerking draait op soevereine infrastructuur — Scaleway, OVHcloud, Bleu, S3NS of de eigen on-premise GPU's van de afnemer. Geen data verlaat EU-grondgebied. Geen Amerikaanse hyperscaler staat in het kritieke pad. Trainingscorpora blijven gedurende en na de samenwerking binnen het land. De tijdlijn breidt uit naar twaalf weken omdat vier van die weken de soevereiniteitsaudit, de onderhandeling over de verwerkersovereenkomst, het Bijlage IV-documentatiewerk en de on-premise provisioning zijn die de private-sector samenwerking overslaat. Het opleverpakket is gebouwd om inkoop-klaar te zijn: het model, de gewichten, de eval-harness, de on-premise deployment en de volledige Bijlage IV-technische documentatie worden overgedragen aan de afnemer als één enkel inkoop-compatibel artefact. De Lab voor de private sector is sneller en goedkoper; als uw use case een public-cloud-deployment en een commerciële verwerkersovereenkomst kan tolereren, is dat de juiste samenwerking en deze niet.
De inkoopgate kan geen frontier-API-deployment goedkeuren. Het standaard commerciële antwoord — een frontier-API wrappen, een verwerkersovereenkomst tekenen, uitrollen — haalt in de meeste EU-lidstaten de publieke-sector inkoop niet. De data-residency, de sub-verwerkersketen, de transfer impact-assessment en de Schrems II-blootstelling bij Amerikaans gehoste inferentie combineren tot een inkooprisico dat de aanbestedende autoriteit niet kan absorberen. Het project strandt in de compliance-review, vaak kwartalen lang, en het uiteindelijke antwoord is ofwel een soevereiniteitsuitsluiting die de vendor niet zal accepteren, ofwel een complete herontwerp op EU-only infrastructuur. Vanaf dag één op soevereine infrastructuur starten is het kortere pad.
EU AI Act-verplichtingen zijn nu van kracht en de documentatielast is reëel. Hoog-risico AI-systemen onder de Act — wat de meeste ministerie-, zorg- en kritieke-infrastructuur use cases dekt — vereisen Bijlage IV-technische documentatie, conformiteitsbeoordeling, post-market monitoring en registratie in de EU-databank. Die documentatie retrospectief produceren, nadat een model is getraind en uitgerold, is duur en vaak incompleet. Vanaf dag één integreren is materieel goedkoper en produceert een documentatiespoor dat een regulatoraudit overleeft. De meeste private-sector samenwerkingen hebben dit niet nodig; publieke-sector samenwerkingen vrijwel altijd wel.
Het proprietaire corpus is de hele reden en kan de jurisdictie niet verlaten. De reden dat een publiek orgaan überhaupt een domeinmodel doet, is dat het corpus — geclassificeerde ministerie-archieven, nationale gezondheidsdossiers, defensie-technische handleidingen, aanbestedingsrechtelijke jurisprudentie, spoor-operationele telemetrie — precies het activum is dat niet naar een Amerikaanse cloud mag voor training. Een generieke API-wrapper was nooit van plan dit corpus te gebruiken; een fine-tuned model op soevereine infrastructuur is de enige architectuur die het corpus inzetbaar maakt. Als het corpus de jurisdictie mag verlaten, is het project waarschijnlijk niet groot of gevoelig genoeg om de soevereine variant te rechtvaardigen, en is de private-sector Lab dan de juiste samenwerking.
Het interne team is sterk op het domein maar dun op productie-ML. Technische teams in de publieke sector zitten meestal diep in het domein — epidemiologen bij het ministerie van Volksgezondheid, railverkeersingenieurs bij de exploitant, juridische wetenschappers bij het ministerie van Justitie. Ze zitten zelden diep in productie-ML: fine-tuning-pipelines, bouw van eval-harnesses, quantisatie voor on-premise inferentie, Bijlage IV-documentatie op het niveau dat de Act nu vereist. De samenwerking is zo gestructureerd dat de domein-expertise wordt gerespecteerd — het team van de afnemer is eigenaar van het corpus en de acceptatiecriteria — terwijl de productie-ML-laag wordt geleverd die zowel de Act als de inkoopgate vereisen.
De samenwerking is de ENGINEER-fase van de Hyperion Lifecycle, uitgebreid naar twaalf weken door de soevereiniteitsaudit, het dataverwerkingsraamwerk, de on-premise provisioning en de Bijlage IV-documentatietrack die parallel aan het technische werk loopt. De samenwerking opereert onder een verwerkersovereenkomst die EU-soevereine infrastructuur voor elke fase specificeert en elke datatransfer naar een niet-EU-jurisdictie op elk moment verbiedt. De inkoop- en juridische teams van de afnemer zijn vanaf week één betrokken, niet aan het einde.
Geschreven soevereiniteitspositie: welke workloads draaien waar, welke provider (Scaleway, OVHcloud, Bleu, S3NS of on-premise), welke jurisdicties de data wel en niet zullen raken, welke sub-verwerkers in scope zijn en welke specifiek uitgesloten zijn. De verwerkersovereenkomst wordt opgesteld en onderhandeld met het juridische team van de afnemer, en de soevereine-cloud of on-premise trainingsomgeving wordt daaronder geprovisioneerd. Bijlage IV-documentatie begint parallel — het technisch dossier, het risicomanagement-raamwerk, de datagovernance-sectie. Tegen het einde van week drie heeft de samenwerking een goedgekeurde juridische en infrastructurele positie waar inkoop achter kan staan.
Het proprietaire corpus wordt geaudit op dekking, kwaliteit, herkomst en rechtmatige grondslag voor gebruik onder de relevante sectorale regelgeving — AVG, archiefwet, defensie-classificatie, zorgdata-governance. De eval-harness wordt gebouwd tegen de taakdefinitie waar de domeinexperts van de afnemer akkoord op hebben gegeven, en een baseline wordt gedraaid — waar juridisch toegestaan — tegen een EU-gehoste frontier-API voor vergelijking. De evaluatiecriteria worden onderdeel van de Bijlage IV-documentatie, geen apart artefact.
Base-modelkeuze over Llama 3, Mistral en Qwen — allemaal open-weight, allemaal juridisch inzetbaar op soevereine infrastructuur zonder vendor-relatie die het data-residency-probleem opnieuw introduceert. Training draait op de geprovisioneerde soevereine GPU's. We voeren gestructureerde experimenten uit — LoRA versus full fine-tune, data-mix-ablations — en we evalueren elke run tegen de baseline uit week vijf. Het Bijlage IV-technisch dossier wordt bijgewerkt met elke materiële beslissing: base-modelkeuze, data-mix, trainings-hyperparameters, evaluatieresultaten. De documentatie is geen achteraf geconstrueerde reconstructie; het is het register van de samenwerking zoals die zich ontvouwt.
Inferentie wordt opgezet op de door de afnemer aangewezen infrastructuur — on-premise GPU's, een dedicated soevereine-cloud-tenant of een air-gapped omgeving voor geclassificeerde workloads. De Bijlage IV-technische documentatie wordt afgerond, het conformiteitsbeoordelingsbewijs samengesteld, het post-market monitoring-plan geschreven en de registratie in de EU AI Act-databank voorbereid. Het interne team van de afnemer wordt door de eval-harness, de training-pipeline en het documentatieraamwerk geloodst zodat zij het systeem kunnen runnen en de documentatie kunnen uitbreiden wanneer het model wordt hertraind. Het model, de gewichten, de eval, de deployment en het volledige conformiteitspakket worden overgedragen als één enkel inkoop-klaar artefact.
Ministeries, regionale overheden, nationale gezondheidsautoriteiten, defensieagentschappen, spoor- en transportexploitanten, energienetbeheerders en smart-city-programma's met een domein-use-case die een model vereist dat getraind is op een corpus dat de afnemer juridisch of operationeel niet buiten EU-jurisdictie kan versturen. Aanbestedende autoriteiten wier inkoopproces een public-cloud- of frontier-API-afhankelijkheid al als diskwalificerend risico heeft geïdentificeerd. Programma's waar de EU AI Act hoog-risico-classificatie van toepassing is en Bijlage IV-technische documentatie moet worden geproduceerd op een standaard die een regulator kan auditen. Dit is niet voor publieke-sector afnemers wier use case een public-cloud-deployment en een commerciële verwerkersovereenkomst kan tolereren — de Domain-Expert LLM Lab voor de private sector is de juiste ingang in die risicopositie, met een kortere tijdlijn en lagere kosten. Het is ook niet voor programma's zonder proprietair corpus; zonder het data-activum heeft de soevereine samenwerking geen voordeel dat een frontier-API niet voor een fractie van de kosten kan evenaren.
Beide, afhankelijk van de operationele positie van de afnemer. On-premise is het juiste antwoord voor geclassificeerde workloads, air-gapped omgevingen en programma's waar de afnemer al een GPU-cluster runt. Soevereine-cloud — Scaleway, OVHcloud, Bleu, S3NS — is het juiste antwoord voor afnemers die EU-jurisdictionele afhandeling willen zonder de CapEx en operationele last van GPU-eigendom. De scope van de samenwerking verandert niet; alleen het provisioneringswerk in week één tot drie verandert. Het soevereiniteitspositiedocument registreert welke keuze is gemaakt en waarom, voor het inkoop- en auditspoor.
Het Bijlage IV-dossier is de AI-specifieke laag; uw sectorale regulator — zorg, financiën, transport, defensie — zal meestal aanvullende documentatie- en governance-eisen hebben die daarnaast liggen. De samenwerking bouwt het Bijlage IV-dossier naar de standaard van de Act en de datagovernance-, risicomanagement- en evaluatiesecties zijn zo gestructureerd dat ze hergebruikt kunnen worden in uw sectorale indiening in plaats van herschreven. Ik lever geen sectoraal juridisch advies — uw interne compliance-advocaat is daar eigenaar van — maar ik heb de technische documentatie gebouwd die onder genoeg regulator-gerichte indieningen ligt om te weten welk bewijs de regulatoren werkelijk willen, wat meestal anders is dan wat de richtsnoeren suggereren.
De samenwerking draait onder welk inkoopvehikel de afnemer ook vereist — direct contract, DPS-raamovereenkomst, UGAP in Frankrijk, EU-brede raamovereenkomsten. De commerciële structuur verandert de technische scope of de twaalf-weekse tijdlijn niet, al kan het inkoopproces zelf de doorlooptijd vóór de start van de samenwerking verlengen. Waar het inkoopteam van de afnemer geen bestaand vehikel heeft dat past, kan ik met hen werken om er één te structureren; dit is deels waarvoor het France Num AI Ambassadeur-referentiekader specifiek is gebouwd.
De verwerkersovereenkomst dekt dat expliciet. Training gebeurt op EU-soevereine infrastructuur onder een verwerkersovereenkomst die de rechtmatige grondslag, retentie en toegangscontroles voor persoonsgegevens gedurende de samenwerking specificeert. Een DPIA wordt geproduceerd als onderdeel van het Bijlage IV-documentatiepakket en besproken met uw Functionaris Gegevensbescherming. Waar het corpus pseudonimisatie of redactie vóór training vereist — wat vaak het geval is — is dat werk onderdeel van de datacuratie-fase in week vier, geen bijzaak. De samenwerking is ontworpen om een AVG-conform trainingsproces op te leveren, niet alleen een AVG-conform uitgerold model.
Nee. Het opleverpakket is bewust compleet: de gewichten, de eval-harness, de training-pipeline, het deployment-runbook en het Bijlage IV-documentatieraamwerk zijn allemaal van u om te runnen. Uw interne team wordt in week elf en twaalf door elk van hen geloodst zodat de overdracht niet theoretisch is. Sommige publieke-sector afnemers kiezen voor een gescopet refresh-engagement wanneer een materieel beter base model uitkomt — Llama 5, een sterkere Mistral-release — maar dat is optioneel en apart geprijsd. De samenwerking exit schoon; hij wordt niet omgezet in een onbepaalde retainer.
30 minuten. Ik diagnosticeer uw situatie en zeg u eerlijk of deze dienst past — en zo niet, welke wel.