Zwölf Wochen. Ein Domain-Expert-Modell, feingetunt auf Ministeriums-, Verteidigungs- oder Gesundheitskorpora und auf EU-souveräner Infrastruktur bereitgestellt, mit EU-AI-Act-Annex-IV-Dokumentation von Tag eins an

Souveränes Domain-LLM für den öffentlichen Sektor

2Bauen12 Wochen — feste Timeline, souveräne Infrastruktur ab Tag eins

Das ist nicht das privatwirtschaftliche Domain-Expert LLM Lab. Es ist dessen öffentliche Adaption. Ein Ministerium, eine regionale Gesundheitsbehörde, eine Verteidigungsagentur, ein nationaler Bahnbetreiber oder ein Smart-City-Programm kann das Standard-Engagement nicht nutzen, weil das Standard-Engagement Public-Cloud-Flexibilität und einen kommerziellen Auftragsverarbeitungsvertrag voraussetzt. Die Public-Sector-Variante tut das nicht. Jede Phase des Engagements läuft auf souveräner Infrastruktur — Scaleway, OVHcloud, Bleu, S3NS oder den eigenen On-Premise-GPUs des Auftraggebers. Keine Daten verlassen EU-Boden. Kein US-Hyperscaler liegt im kritischen Pfad. Trainingskorpora bleiben während und nach dem Engagement im Inland. Die Timeline verlängert sich auf zwölf Wochen, weil vier dieser Wochen das Souveränitäts-Audit, die Verhandlung des Auftragsverarbeitungsvertrags, die Annex-IV-Dokumentationsarbeit und die On-Premise-Provisionierung sind, die das privatwirtschaftliche Engagement überspringt. Das Deliverable-Paket ist beschaffungsfähig gebaut: das Modell, die Gewichte, der Eval-Harness, die On-Premise-Bereitstellung und die vollständige Annex-IV-Techdoku werden dem Auftraggeber als ein einziges, beschaffungskompatibles Artefakt übergeben. Das privatwirtschaftliche Lab ist schneller und günstiger; wenn Ihr Anwendungsfall eine Public-Cloud-Bereitstellung und einen kommerziellen AVV toleriert, ist dieses Engagement die richtige Wahl und das hier nicht.

Warum Public-Sector-KI-Projekte vor dem Produktionsgang stocken

Der Beschaffungs-Gate kann eine Frontier-API-Bereitstellung nicht genehmigen. Die kommerzielle Standardantwort — eine Frontier-API wrappen, einen AVV unterzeichnen, ausliefern — passiert die Public-Sector-Beschaffung in den meisten EU-Mitgliedstaaten nicht. Datenresidenz, Sub-Processor-Kette, Transfer-Impact-Assessment und Schrems-II-Exposure bei US-gehosteter Inferenz summieren sich zu einem Beschaffungsrisiko, das die beschaffende Behörde nicht absorbieren kann. Das Projekt bleibt im Compliance-Review stecken, oft über Quartale, und die endgültige Antwort ist entweder ein Souveränitäts-Carve-out, den der Anbieter nicht akzeptiert, oder ein kompletter Redesign auf EU-Only-Infrastruktur. Auf souveräner Infrastruktur von Tag eins zu starten, ist der kürzere Weg.

EU-AI-Act-Pflichten treten schrittweise nach Kategorie in Kraft, und die Dokumentationslast für Hochrisiko-Systeme ist real. Hochrisiko-KI-Systeme nach dem Act — eine Kategorie, in die viele Ministeriums-, Gesundheits- und kritische-Infrastruktur-Anwendungsfälle fallen — verlangen Annex-IV-Techdoku, Konformitätsbewertung, Post-Market-Monitoring und eine Registrierung in der EU-Datenbank. Diese Dokumentation rückwirkend, nachdem ein Modell bereits trainiert und ausgebracht wurde, zu erzeugen, ist teuer und oft unvollständig. Sie von Tag eins an ins Engagement zu integrieren, ist materiell günstiger und erzeugt eine Dokumentationsspur, die ein Regulator-Audit überlebt. Die meisten privatwirtschaftlichen Engagements brauchen das nicht; Public-Sector-Engagements fast immer.

Der proprietäre Korpus ist der ganze Punkt und darf die Jurisdiktion nicht verlassen. Der Grund, warum eine Public-Sector-Stelle überhaupt ein Domain-Modell baut, ist, dass der Korpus — klassifizierte Ministerialarchive, nationale Gesundheitsdaten, technische Verteidigungshandbücher, Vergabe-Rechtsprechung, Bahn-Telemetrie — genau das Asset ist, das nicht zum Training in eine US-Cloud gesandt werden darf. Ein generischer API-Wrapper wäre ohnehin nicht in der Lage, diesen Korpus zu nutzen; ein feingetuntes Modell auf souveräner Infrastruktur ist die einzige Architektur, die den Korpus einsetzbar macht. Wenn der Korpus die Jurisdiktion verlassen darf, ist das Projekt wahrscheinlich nicht groß oder sensibel genug, um die souveräne Variante zu rechtfertigen, und das privatwirtschaftliche Lab ist stattdessen das richtige Engagement.

Das interne Team ist stark in der Fachdomäne und dünn in produktivem ML. Public-Sector-Technikteams sind meist tief in der Domäne — Epidemiologinnen im Gesundheitsministerium, Schienenverkehrsingenieure beim Betreiber, Rechtswissenschaftler im Justizministerium. In produktivem ML sind sie selten tief: Fine-Tuning-Pipelines, Eval-Harness-Bau, Quantisierung für On-Premise-Inferenz, Annex-IV-Dokumentation auf dem Niveau, das der Act jetzt verlangt. Das Engagement ist so strukturiert, dass es die Fachexpertise respektiert — das Team des Auftraggebers besitzt den Korpus und die Abnahmekriterien — und gleichzeitig die produktive ML-Schicht liefert, die sowohl der Act als auch der Beschaffungs-Gate verlangen.

Zwölf Wochen von souveräner Infrastruktur zu einem beschaffungsreifen Modell

Das Engagement ist die Aufbau-und-Rollout-Stufe, auf zwölf Wochen verlängert durch das Souveränitäts-Audit, das Auftragsverarbeitungs-Framework, die On-Premise-Provisionierung und den parallel zur technischen Arbeit laufenden Annex-IV-Dokumentationsstrang. Das Engagement arbeitet unter einem Auftragsverarbeitungsvertrag, der EU-souveräne Infrastruktur für jede Phase vorschreibt und jegliche Datenübermittlung in eine Nicht-EU-Jurisdiktion zu jedem Zeitpunkt untersagt. Die Beschaffungs- und Rechtsteams des Auftraggebers sind ab Woche eins eingebunden, nicht am Ende.

Wochen 1–3: Souveränitäts-Audit, AVV und Infrastruktur-Provisionierung

Schriftliche Souveränitäts-Posture: welche Workloads wo laufen, welcher Anbieter (Scaleway, OVHcloud, Bleu, S3NS oder On-Premise), welche Jurisdiktionen die Daten berühren und nicht berühren werden, welche Sub-Processors im Scope sind und welche explizit ausgeschlossen werden. Der Auftragsverarbeitungsvertrag wird mit dem Rechtsteam des Auftraggebers entworfen und verhandelt, und die souveräne Cloud- oder On-Premise-Trainingsumgebung wird darunter provisioniert. Die Annex-IV-Dokumentation beginnt parallel — das Technical File, das Risikomanagement-Framework, der Daten-Governance-Abschnitt. Am Ende von Woche drei hat das Engagement eine freigegebene rechtliche und infrastrukturelle Posture, hinter die die Beschaffung treten kann.

Wochen 4–5: Daten-Kuratierung und Eval-Harness

Der proprietäre Korpus wird auf Abdeckung, Qualität, Provenienz und Rechtsgrundlage für die Nutzung unter der relevanten Sektorregulierung auditiert — DSGVO, öffentliches Archivrecht, Verteidigungs-Klassifizierung, Gesundheitsdaten-Governance. Der Eval-Harness wird gegen die Aufgabendefinition gebaut, die die Fachexperten des Auftraggebers freigegeben haben, und eine Baseline wird — wo rechtlich zulässig — gegen eine EU-gehostete Frontier-API zum Vergleich gefahren. Die Evaluationskriterien werden Teil der Annex-IV-Dokumentation, kein separates Artefakt.

Wochen 6–9: Fine-Tuning auf souveräner Infrastruktur

Basismodell-Auswahl über Llama 3, Mistral und Qwen — alle Open-Weight, alle rechtlich auf souveräner Infrastruktur ohne eine Anbieterbeziehung einsetzbar, die das Datenresidenzproblem wieder einführen würde. Das Training läuft auf den provisionierten souveränen GPUs. Wir fahren strukturierte Experimente — LoRA vs. Full Fine-Tune, Ablationen über Datenmixe — und evaluieren jeden Run gegen die Woche-5-Baseline. Das Annex-IV-Technical-File wird bei jeder materiellen Entscheidung aktualisiert: Basismodell-Auswahl, Datenmix, Trainings-Hyperparameter, Evaluationsergebnisse. Die Dokumentation ist keine nachträgliche Rekonstruktion; sie ist die Aufzeichnung des Engagements, während es stattfindet.

Wochen 10–12: On-Premise-Deployment, Konformitätsdokumentation, Übergabe

Die Inferenz wird auf der vom Auftraggeber benannten Infrastruktur aufgesetzt — On-Premise-GPUs, einem dedizierten souveränen Cloud-Tenant oder einer Air-gapped-Umgebung für klassifizierte Workloads. Die Annex-IV-Techdoku wird fertiggestellt, die Evidenz für die Konformitätsbewertung zusammengestellt, der Post-Market-Monitoring-Plan geschrieben und die Registrierung in der EU-AI-Act-Datenbank vorbereitet. Das interne Team des Auftraggebers wird durch den Eval-Harness, die Trainingspipeline und das Dokumentations-Framework geführt, damit es das System betreiben und die Dokumentation bei Neu-Trainings erweitern kann. Modell, Gewichte, Eval, Deployment und vollständiges Konformitätspaket werden als ein einziges beschaffungsreifes Artefakt übergeben.

Was das souveräne Engagement produziert

12 Wochen

Kickoff bis zum beschaffungsreifen, eingesetzten Modell mit Annex-IV-Paket

Datenübermittlungen außerhalb der EU-Jurisdiktion in jeder Phase

Annex IV

EU-AI-Act-Techdoku integriert, nicht nachgerüstet

Engagement-Modell

Dauer

12 Wochen — feste Timeline, souveräne Infrastruktur ab Tag eins

Format

Souveränitäts-Audit & AVV → Daten-Kuratierung & Eval → Fine-Tuning auf souveränen GPUs → On-Premise-Deployment & Annex-IV-Konformitätspaket

Was Sie erhalten

Souveränes Domain-Modell — feingetuntes Open-Weight-Modell (Llama 3, Mistral oder Qwen), vollständig auf EU-souveräner Infrastruktur trainiert und eingesetzt, mit Gewichten, Trainingscode und vollständigem Trainingsrezept

Souveränitäts-Posture-Dokument — schriftliche Darstellung, welche Workloads bei welchem Anbieter liefen, welche Jurisdiktionen berührt wurden, welche Sub-Processors im Scope waren und welche ausgeschlossen wurden, für Audit und Beschaffungsreview

Annex-IV-Technical-File — während des Engagements aufgebaute EU-AI-Act-Konformitätsdokumentation: technische Beschreibung, Risikomanagement-Framework, Daten-Governance, Evaluationsergebnisse, Post-Market-Monitoring-Plan

On-Premise-Deployment — Inferenz auf vom Auftraggeber benannter Infrastruktur (On-Premise-GPUs, souveräner Cloud-Tenant oder Air-gapped-Umgebung) mit Runbooks, die das Operations-Team des Auftraggebers nutzen kann

Auftragsverarbeitungsvertrag — verhandelter und abgeschlossener AVV, der EU-souveräne Handhabung des Korpus während und nach dem Engagement spezifiziert

Evaluations-Harness — produktionsreife Eval-Suite, kalibriert auf die freigegebenen Abnahmekriterien der Fachexperten des Auftraggebers, nutzbar für künftige Retraining-Zyklen und Regulator-Audits

Konformitätsbewertungs-Paket — die zusammengestellte Evidenz, die das Compliance-Team des Auftraggebers für die EU-AI-Act-Datenbank-Registrierung und jegliche Sektorregulator-Reviews benötigt

Gebaut für EU-Public-Sector-Einkäufer mit Souveränitätsmandat und proprietärem Korpus

Ministerien, Regionalregierungen, nationale Gesundheitsbehörden, Verteidigungsagenturen, Bahn- und Verkehrsbetreiber, Energienetzbetreiber und Smart-City-Programme mit einem Domain-Anwendungsfall, der ein Modell verlangt, trainiert auf einem Korpus, den der Einkäufer rechtlich oder operativ nicht außerhalb der EU-Jurisdiktion senden darf. Beschaffende Behörden, deren Beschaffungsprozess bereits eine Public-Cloud- oder Frontier-API-Abhängigkeit als disqualifizierendes Risiko identifiziert hat. Programme, in denen eine EU-AI-Act-Hochrisiko-Klassifizierung gilt und Annex-IV-Techdoku auf einem Niveau produziert werden muss, das ein Regulator auditieren kann. Das ist nicht für Public-Sector-Einkäufer, deren Anwendungsfall eine Public-Cloud-Bereitstellung und einen kommerziellen AVV toleriert — das privatwirtschaftliche Domain-Expert LLM Lab ist bei dieser Risiko-Posture der richtige Einstieg, bei kürzerer Timeline und geringeren Kosten. Es ist auch nicht für Programme ohne proprietären Korpus; ohne Datenasset hat das souveräne Engagement keinen Vorteil, den eine Frontier-API nicht zu einem Bruchteil der Kosten liefern könnte.

Die Credentials, die ein Public-Sector-Einkäufer tatsächlich braucht

Französischer Regierungs-KI-Botschafter — ein Credential, das für Public-Sector-Beschaffung zählt, bei der der Einkäufer eine Gegenseite braucht, die bereits innerhalb des französischen Verwaltungssystems operiert hat.Forbes Technology Council — Veröffentlichungen zur Open-Weight-Modell-Strategie und zur EU-KI-Souveränität. Die öffentliche Schrift ist derselbe Rahmen, unter dem das Engagement arbeitet.Hugging-Face-Profil — HyperionConsultingIO — mit öffentlichen Artefakten der Open-Weight-Fine-Tuning-Praxis. Die Open-Weight-Architektur ist das, was souveräne Bereitstellung möglich macht; ein Closed-Weight-Frontier-Modell kann nicht auf einem air-gapped On-Premise-Cluster ohne eine Anbieterbeziehung laufen, die die Souveränitäts-Posture bricht.Interne KI-Ventures, gebaut mit feinabgestimmten offenen Modellen — die Erfolgsbilanz hinter dem Engagement im öffentlichen Sektor. Die souveräne Variante nutzt dieselbe Fine-Tuning-Methodik auf souveräner Infrastruktur, nicht eine andere.

Häufig gestellte Fragen

Beides, je nach operativer Posture des Einkäufers. On-Premise ist die richtige Antwort für klassifizierte Workloads, air-gapped Umgebungen und Programme, in denen der Einkäufer bereits einen GPU-Cluster betreibt. Souveräne Cloud — Scaleway, OVHcloud, Bleu, S3NS — ist die richtige Antwort für Einkäufer, die EU-jurisdiktionelle Handhabung ohne die CapEx- und Betriebslast eigener GPUs wollen. Der Engagement-Scope ändert sich nicht; nur die Provisionierungsarbeit in den Wochen eins bis drei ändert sich. Das Souveränitäts-Posture-Dokument hält fest, welche Wahl getroffen wurde und warum, für die Beschaffungs- und Audit-Spur.

Das Annex-IV-File ist die KI-spezifische Schicht; Ihr Sektorregulator — Gesundheit, Finanzen, Verkehr, Verteidigung — hat meist zusätzliche Dokumentations- und Governance-Anforderungen, die daneben liegen. Das Engagement baut das Annex-IV-File auf den Standard des Act, und die Abschnitte Daten-Governance, Risikomanagement und Evaluation sind so strukturiert, dass sie in Ihrer Sektor-Einreichung wiederverwendet werden können, anstatt neu geschrieben zu werden. Ich erbringe keine sektorspezifische Rechtsberatung — das besitzt Ihre interne Compliance-Leitung —, aber ich habe die Techdoku gebaut, die genügend aufsichtsgerichteten Einreichungen zugrundeliegt, um zu wissen, welche Evidenz die Regulatoren tatsächlich sehen wollen, was sich meist von dem unterscheidet, was die Leitlinien vermuten lassen.

Das Engagement läuft unter dem Vergabevehikel, das der Einkäufer verlangt — Direktvertrag, DPS-Rahmen, UGAP in Frankreich, EU-weite Rahmenvereinbarungen. Die kommerzielle Struktur ändert weder den technischen Scope noch die Zwölf-Wochen-Timeline, obwohl der Beschaffungsprozess selbst die Vorlaufzeit vor dem Engagement verlängern kann. Wo das Beschaffungsteam des Einkäufers kein passendes bestehendes Vehikel hat, kann ich mit ihm ein solches strukturieren.

Der AVV deckt das explizit ab. Das Training findet auf EU-souveräner Infrastruktur statt, unter einem Auftragsverarbeitungsvertrag, der Rechtsgrundlage, Aufbewahrung und Zugriffssteuerungen für personenbezogene Daten während des gesamten Engagements vorschreibt. Eine DSFA wird als Teil des Annex-IV-Dokumentationspakets produziert und mit Ihrem Datenschutzbeauftragten geprüft. Wo der Korpus vor dem Training Pseudonymisierung oder Redaktion verlangt — was oft der Fall ist —, ist diese Arbeit Teil der Daten-Kuratierungsphase in Woche vier, kein Nachgedanke. Das Engagement ist so gebaut, dass es einen DSGVO-orientierten Trainingsprozess erzeugt, nicht nur ein DSGVO-orientiertes bereitgestelltes Modell.

Nein. Das Deliverable-Paket ist bewusst vollständig: Gewichte, Eval-Harness, Trainingspipeline, Deployment-Runbook und Annex-IV-Dokumentations-Framework gehören alle Ihnen zum Betrieb. Ihr internes Team wird in den Wochen elf und zwölf durch jedes davon geführt, damit die Übergabe nicht theoretisch bleibt. Einige Public-Sector-Einkäufer wählen ein umrissenes Refresh-Engagement, wenn ein materiell besseres Basismodell ausgeliefert wird — Llama 5, ein stärkeres Mistral-Release —, aber das ist optional und separat bepreist. Das Engagement endet sauber; es verwandelt sich nicht in einen unbefristeten Retainer.

Selbst ausprobieren

Ihren ROI berechnen

Geschätzte Einsparungen in 2 Minuten sehen

AI-Bereitschaft prüfen

Erhalten Sie einen personalisierten Bereitschafts-Score

Unsere AI testen

6 Live-Demos, ohne Verpflichtung

In einem Call entscheiden, ob ich helfen kann

30 Minuten. Ich diagnostiziere Ihre Situation und sage Ihnen ehrlich, ob dieser Service passt — und wenn nicht, welcher.