Lifecycle stage — Build
Das ist nicht das privatwirtschaftliche Domain-Expert LLM Lab. Es ist dessen öffentliche Adaption. Ein Ministerium, eine regionale Gesundheitsbehörde, eine Verteidigungsagentur, ein nationaler Bahnbetreiber oder ein Smart-City-Programm kann das Standard-Engagement nicht nutzen, weil das Standard-Engagement Public-Cloud-Flexibilität und einen kommerziellen Auftragsverarbeitungsvertrag voraussetzt. Die Public-Sector-Variante tut das nicht. Jede Phase des Engagements läuft auf souveräner Infrastruktur — Scaleway, OVHcloud, Bleu, S3NS oder den eigenen On-Premise-GPUs des Auftraggebers. Keine Daten verlassen EU-Boden. Kein US-Hyperscaler liegt im kritischen Pfad. Trainingskorpora bleiben während und nach dem Engagement im Inland. Die Timeline verlängert sich auf zwölf Wochen, weil vier dieser Wochen das Souveränitäts-Audit, die Verhandlung des Auftragsverarbeitungsvertrags, die Annex-IV-Dokumentationsarbeit und die On-Premise-Provisionierung sind, die das privatwirtschaftliche Engagement überspringt. Das Deliverable-Paket ist beschaffungsfähig gebaut: das Modell, die Gewichte, der Eval-Harness, die On-Premise-Bereitstellung und die vollständige Annex-IV-Techdoku werden dem Auftraggeber als ein einziges, beschaffungskompatibles Artefakt übergeben. Das privatwirtschaftliche Lab ist schneller und günstiger; wenn Ihr Anwendungsfall eine Public-Cloud-Bereitstellung und einen kommerziellen AVV toleriert, ist dieses Engagement die richtige Wahl und das hier nicht.
Der Beschaffungs-Gate kann eine Frontier-API-Bereitstellung nicht genehmigen. Die kommerzielle Standardantwort — eine Frontier-API wrappen, einen AVV unterzeichnen, ausliefern — passiert die Public-Sector-Beschaffung in den meisten EU-Mitgliedstaaten nicht. Datenresidenz, Sub-Processor-Kette, Transfer-Impact-Assessment und Schrems-II-Exposure bei US-gehosteter Inferenz summieren sich zu einem Beschaffungsrisiko, das die beschaffende Behörde nicht absorbieren kann. Das Projekt bleibt im Compliance-Review stecken, oft über Quartale, und die endgültige Antwort ist entweder ein Souveränitäts-Carve-out, den der Anbieter nicht akzeptiert, oder ein kompletter Redesign auf EU-Only-Infrastruktur. Auf souveräner Infrastruktur von Tag eins zu starten, ist der kürzere Weg.
EU-AI-Act-Pflichten sind jetzt operativ, und die Dokumentationslast ist real. Hochrisiko-KI-Systeme nach dem Act — was die meisten Ministeriums-, Gesundheits- und kritische-Infrastruktur-Anwendungsfälle abdeckt — verlangen Annex-IV-Techdoku, Konformitätsbewertung, Post-Market-Monitoring und eine Registrierung in der EU-Datenbank. Diese Dokumentation rückwirkend, nachdem ein Modell bereits trainiert und ausgebracht wurde, zu erzeugen, ist teuer und oft unvollständig. Sie von Tag eins an ins Engagement zu integrieren, ist materiell günstiger und erzeugt eine Dokumentationsspur, die ein Regulator-Audit überlebt. Die meisten privatwirtschaftlichen Engagements brauchen das nicht; Public-Sector-Engagements fast immer.
Der proprietäre Korpus ist der ganze Punkt und darf die Jurisdiktion nicht verlassen. Der Grund, warum eine Public-Sector-Stelle überhaupt ein Domain-Modell baut, ist, dass der Korpus — klassifizierte Ministerialarchive, nationale Gesundheitsdaten, technische Verteidigungshandbücher, Vergabe-Rechtsprechung, Bahn-Telemetrie — genau das Asset ist, das nicht zum Training in eine US-Cloud gesandt werden darf. Ein generischer API-Wrapper wäre ohnehin nicht in der Lage, diesen Korpus zu nutzen; ein feingetuntes Modell auf souveräner Infrastruktur ist die einzige Architektur, die den Korpus einsetzbar macht. Wenn der Korpus die Jurisdiktion verlassen darf, ist das Projekt wahrscheinlich nicht groß oder sensibel genug, um die souveräne Variante zu rechtfertigen, und das privatwirtschaftliche Lab ist stattdessen das richtige Engagement.
Das interne Team ist stark in der Fachdomäne und dünn in produktivem ML. Public-Sector-Technikteams sind meist tief in der Domäne — Epidemiologinnen im Gesundheitsministerium, Schienenverkehrsingenieure beim Betreiber, Rechtswissenschaftler im Justizministerium. In produktivem ML sind sie selten tief: Fine-Tuning-Pipelines, Eval-Harness-Bau, Quantisierung für On-Premise-Inferenz, Annex-IV-Dokumentation auf dem Niveau, das der Act jetzt verlangt. Das Engagement ist so strukturiert, dass es die Fachexpertise respektiert — das Team des Auftraggebers besitzt den Korpus und die Abnahmekriterien — und gleichzeitig die produktive ML-Schicht liefert, die sowohl der Act als auch der Beschaffungs-Gate verlangen.
Das Engagement ist die ENGINEER-Phase der Hyperion Lifecycle, auf zwölf Wochen verlängert durch das Souveränitäts-Audit, das Auftragsverarbeitungs-Framework, die On-Premise-Provisionierung und den parallel zur technischen Arbeit laufenden Annex-IV-Dokumentationsstrang. Das Engagement arbeitet unter einem Auftragsverarbeitungsvertrag, der EU-souveräne Infrastruktur für jede Phase vorschreibt und jegliche Datenübermittlung in eine Nicht-EU-Jurisdiktion zu jedem Zeitpunkt untersagt. Die Beschaffungs- und Rechtsteams des Auftraggebers sind ab Woche eins eingebunden, nicht am Ende.
Schriftliche Souveränitäts-Posture: welche Workloads wo laufen, welcher Anbieter (Scaleway, OVHcloud, Bleu, S3NS oder On-Premise), welche Jurisdiktionen die Daten berühren und nicht berühren werden, welche Sub-Processors im Scope sind und welche explizit ausgeschlossen werden. Der Auftragsverarbeitungsvertrag wird mit dem Rechtsteam des Auftraggebers entworfen und verhandelt, und die souveräne Cloud- oder On-Premise-Trainingsumgebung wird darunter provisioniert. Die Annex-IV-Dokumentation beginnt parallel — das Technical File, das Risikomanagement-Framework, der Daten-Governance-Abschnitt. Am Ende von Woche drei hat das Engagement eine freigegebene rechtliche und infrastrukturelle Posture, hinter die die Beschaffung treten kann.
Der proprietäre Korpus wird auf Abdeckung, Qualität, Provenienz und Rechtsgrundlage für die Nutzung unter der relevanten Sektorregulierung auditiert — DSGVO, öffentliches Archivrecht, Verteidigungs-Klassifizierung, Gesundheitsdaten-Governance. Der Eval-Harness wird gegen die Aufgabendefinition gebaut, die die Fachexperten des Auftraggebers freigegeben haben, und eine Baseline wird — wo rechtlich zulässig — gegen eine EU-gehostete Frontier-API zum Vergleich gefahren. Die Evaluationskriterien werden Teil der Annex-IV-Dokumentation, kein separates Artefakt.
Basismodell-Auswahl über Llama 3, Mistral und Qwen — alle Open-Weight, alle rechtlich auf souveräner Infrastruktur ohne eine Anbieterbeziehung einsetzbar, die das Datenresidenzproblem wieder einführen würde. Das Training läuft auf den provisionierten souveränen GPUs. Wir fahren strukturierte Experimente — LoRA vs. Full Fine-Tune, Ablationen über Datenmixe — und evaluieren jeden Run gegen die Woche-5-Baseline. Das Annex-IV-Technical-File wird bei jeder materiellen Entscheidung aktualisiert: Basismodell-Auswahl, Datenmix, Trainings-Hyperparameter, Evaluationsergebnisse. Die Dokumentation ist keine nachträgliche Rekonstruktion; sie ist die Aufzeichnung des Engagements, während es stattfindet.
Die Inferenz wird auf der vom Auftraggeber benannten Infrastruktur aufgesetzt — On-Premise-GPUs, einem dedizierten souveränen Cloud-Tenant oder einer Air-gapped-Umgebung für klassifizierte Workloads. Die Annex-IV-Techdoku wird fertiggestellt, die Evidenz für die Konformitätsbewertung zusammengestellt, der Post-Market-Monitoring-Plan geschrieben und die Registrierung in der EU-AI-Act-Datenbank vorbereitet. Das interne Team des Auftraggebers wird durch den Eval-Harness, die Trainingspipeline und das Dokumentations-Framework geführt, damit es das System betreiben und die Dokumentation bei Neu-Trainings erweitern kann. Modell, Gewichte, Eval, Deployment und vollständiges Konformitätspaket werden als ein einziges beschaffungsreifes Artefakt übergeben.
Ministerien, Regionalregierungen, nationale Gesundheitsbehörden, Verteidigungsagenturen, Bahn- und Verkehrsbetreiber, Energienetzbetreiber und Smart-City-Programme mit einem Domain-Anwendungsfall, der ein Modell verlangt, trainiert auf einem Korpus, den der Einkäufer rechtlich oder operativ nicht außerhalb der EU-Jurisdiktion senden darf. Beschaffende Behörden, deren Beschaffungsprozess bereits eine Public-Cloud- oder Frontier-API-Abhängigkeit als disqualifizierendes Risiko identifiziert hat. Programme, in denen eine EU-AI-Act-Hochrisiko-Klassifizierung gilt und Annex-IV-Techdoku auf einem Niveau produziert werden muss, das ein Regulator auditieren kann. Das ist nicht für Public-Sector-Einkäufer, deren Anwendungsfall eine Public-Cloud-Bereitstellung und einen kommerziellen AVV toleriert — das privatwirtschaftliche Domain-Expert LLM Lab ist bei dieser Risiko-Posture der richtige Einstieg, bei kürzerer Timeline und geringeren Kosten. Es ist auch nicht für Programme ohne proprietären Korpus; ohne Datenasset hat das souveräne Engagement keinen Vorteil, den eine Frontier-API nicht zu einem Bruchteil der Kosten liefern könnte.
Beides, je nach operativer Posture des Einkäufers. On-Premise ist die richtige Antwort für klassifizierte Workloads, air-gapped Umgebungen und Programme, in denen der Einkäufer bereits einen GPU-Cluster betreibt. Souveräne Cloud — Scaleway, OVHcloud, Bleu, S3NS — ist die richtige Antwort für Einkäufer, die EU-jurisdiktionelle Handhabung ohne die CapEx- und Betriebslast eigener GPUs wollen. Der Engagement-Scope ändert sich nicht; nur die Provisionierungsarbeit in den Wochen eins bis drei ändert sich. Das Souveränitäts-Posture-Dokument hält fest, welche Wahl getroffen wurde und warum, für die Beschaffungs- und Audit-Spur.
Das Annex-IV-File ist die KI-spezifische Schicht; Ihr Sektorregulator — Gesundheit, Finanzen, Verkehr, Verteidigung — hat meist zusätzliche Dokumentations- und Governance-Anforderungen, die daneben liegen. Das Engagement baut das Annex-IV-File auf den Standard des Act, und die Abschnitte Daten-Governance, Risikomanagement und Evaluation sind so strukturiert, dass sie in Ihrer Sektor-Einreichung wiederverwendet werden können, anstatt neu geschrieben zu werden. Ich erbringe keine sektorspezifische Rechtsberatung — das besitzt Ihre interne Compliance-Leitung —, aber ich habe die Techdoku gebaut, die genügend aufsichtsgerichteten Einreichungen zugrundeliegt, um zu wissen, welche Evidenz die Regulatoren tatsächlich sehen wollen, was sich meist von dem unterscheidet, was die Leitlinien vermuten lassen.
Das Engagement läuft unter dem Vergabevehikel, das der Einkäufer verlangt — Direktvertrag, DPS-Rahmen, UGAP in Frankreich, EU-weite Rahmenvereinbarungen. Die kommerzielle Struktur ändert weder den technischen Scope noch die Zwölf-Wochen-Timeline, obwohl der Beschaffungsprozess selbst die Vorlaufzeit vor dem Engagement verlängern kann. Wo das Beschaffungsteam des Einkäufers kein passendes bestehendes Vehikel hat, kann ich mit ihm ein solches strukturieren; genau dafür wurde das France-Num-AI-Ambassador-Credential gebaut.
Der AVV deckt das explizit ab. Das Training findet auf EU-souveräner Infrastruktur statt, unter einem Auftragsverarbeitungsvertrag, der Rechtsgrundlage, Aufbewahrung und Zugriffssteuerungen für personenbezogene Daten während des gesamten Engagements vorschreibt. Eine DSFA wird als Teil des Annex-IV-Dokumentationspakets produziert und mit Ihrem Datenschutzbeauftragten geprüft. Wo der Korpus vor dem Training Pseudonymisierung oder Redaktion verlangt — was oft der Fall ist —, ist diese Arbeit Teil der Daten-Kuratierungsphase in Woche vier, kein Nachgedanke. Das Engagement ist so gebaut, dass es einen DSGVO-konformen Trainingsprozess erzeugt, nicht nur ein DSGVO-konformes bereitgestelltes Modell.
Nein. Das Deliverable-Paket ist bewusst vollständig: Gewichte, Eval-Harness, Trainingspipeline, Deployment-Runbook und Annex-IV-Dokumentations-Framework gehören alle Ihnen zum Betrieb. Ihr internes Team wird in den Wochen elf und zwölf durch jedes davon geführt, damit die Übergabe nicht theoretisch bleibt. Einige Public-Sector-Einkäufer wählen ein umrissenes Refresh-Engagement, wenn ein materiell besseres Basismodell ausgeliefert wird — Llama 5, ein stärkeres Mistral-Release —, aber das ist optional und separat bepreist. Das Engagement endet sauber; es verwandelt sich nicht in einen unbefristeten Retainer.
30 Minuten. Ich diagnostiziere Ihre Situation und sage Ihnen ehrlich, ob dieser Service passt — und wenn nicht, welcher.