Lifecycle stage — Build
Αυτό δεν είναι το Domain-Expert LLM Lab του ιδιωτικού τομέα. Είναι η προσαρμογή του για τον δημόσιο τομέα. Ένα υπουργείο, μια περιφερειακή υγειονομική αρχή, μια αμυντική υπηρεσία, ένας εθνικός σιδηροδρομικός φορέας ή ένα πρόγραμμα smart-city δεν μπορεί να χρησιμοποιήσει την τυπική εμπλοκή, επειδή η τυπική εμπλοκή υποθέτει ευελιξία public-cloud και μια εμπορική συμφωνία επεξεργασίας δεδομένων. Η παραλλαγή του δημοσίου τομέα δεν το κάνει. Κάθε φάση της εμπλοκής τρέχει σε sovereign υποδομή — Scaleway, OVHcloud, Bleu, S3NS ή τις δικές σας on-premise GPUs. Κανένα δεδομένο δεν φεύγει από το έδαφος της ΕΕ. Κανένας US hyperscaler δεν βρίσκεται στην κρίσιμη διαδρομή. Τα corpora εκπαίδευσης παραμένουν εντός χώρας κατά τη διάρκεια της εμπλοκής και μετά. Το χρονοδιάγραμμα επεκτείνεται σε δώδεκα εβδομάδες, επειδή τέσσερις από αυτές τις εβδομάδες αφορούν τον έλεγχο κυριαρχίας, τη διαπραγμάτευση της συμφωνίας επεξεργασίας δεδομένων, τη δουλειά τεκμηρίωσης Annex IV και το on-premise provisioning που παραλείπει η εμπλοκή του ιδιωτικού τομέα. Το πακέτο παραδοτέων χτίζεται για να είναι procurement-ready: το μοντέλο, τα weights, το eval harness, το on-premise deployment και η πλήρης τεχνική τεκμηρίωση Annex IV παραδίδονται στον αγοραστή ως ένα ενιαίο procurement-συμβατό artefact. Το Lab του ιδιωτικού τομέα είναι ταχύτερο και φθηνότερο· αν η περίπτωση χρήσης σας μπορεί να ανεχθεί ένα public-cloud deployment και μια εμπορική DPA, εκείνη η εμπλοκή είναι η σωστή επιλογή και αυτή δεν είναι.
Η πύλη προμηθειών δεν μπορεί να εγκρίνει ένα frontier-API deployment. Η τυπική εμπορική απάντηση — wrap ενός frontier API, υπογραφή DPA, deploy — δεν περνά από τις προμήθειες του δημοσίου τομέα στα περισσότερα κράτη μέλη της ΕΕ. Η data residency, η αλυσίδα sub-processor, η αξιολόγηση επιπτώσεων μεταφορών και η έκθεση Schrems II στο US-hosted inference συνδυάζονται σε έναν κίνδυνο προμηθειών που η αγοραστική αρχή δεν μπορεί να απορροφήσει. Το έργο παγώνει στην έλεγχο συμμόρφωσης, συχνά για τρίμηνα, και η τελική απάντηση είναι είτε μια εξαίρεση κυριαρχίας που ο προμηθευτής δεν θα αποδεχθεί είτε ένας πλήρης επανασχεδιασμός σε αποκλειστικά EU υποδομή. Η εκκίνηση σε sovereign υποδομή από την πρώτη ημέρα είναι ο συντομότερος δρόμος.
Οι υποχρεώσεις EU AI Act είναι πλέον σε ισχύ και το βάρος τεκμηρίωσης είναι πραγματικό. Τα υψηλού κινδύνου συστήματα AI σύμφωνα με τον Κανονισμό — που καλύπτει τις περισσότερες περιπτώσεις χρήσης υπουργείων, υγείας και κρίσιμων υποδομών — απαιτούν τεχνική τεκμηρίωση Annex IV, αξιολόγηση συμμόρφωσης, παρακολούθηση μετά τη θέση σε λειτουργία και εγγραφή στη βάση δεδομένων της ΕΕ. Η αναδρομική παραγωγή αυτής της τεκμηρίωσης, μετά την εκπαίδευση και ανάπτυξη του μοντέλου, είναι ακριβή και συχνά ελλιπής. Η ενσωμάτωσή της στην εμπλοκή από την πρώτη ημέρα είναι ουσιαστικά φθηνότερη και παράγει ένα ίχνος τεκμηρίωσης που αντέχει έλεγχο ρυθμιστικής αρχής. Οι περισσότερες εμπλοκές ιδιωτικού τομέα δεν το χρειάζονται· οι εμπλοκές δημοσίου τομέα σχεδόν πάντα το χρειάζονται.
Το ιδιόκτητο corpus είναι ολόκληρο το νόημα και δεν μπορεί να φύγει από τη δικαιοδοσία. Ο λόγος που ένας φορέας του δημοσίου κάνει ένα domain μοντέλο είναι ότι το corpus — απόρρητα αρχεία υπουργείων, εθνικά μητρώα υγείας, τεχνικά εγχειρίδια άμυνας, νομολογία δικαίου προμηθειών, λειτουργική τηλεμετρία σιδηροδρόμων — είναι ακριβώς το περιουσιακό στοιχείο που δεν μπορεί να σταλεί σε ένα US cloud για εκπαίδευση. Ένα γενικό API wrapper ποτέ δεν επρόκειτο να χρησιμοποιήσει αυτό το corpus· ένα fine-tuned μοντέλο σε sovereign υποδομή είναι η μόνη αρχιτεκτονική που καθιστά το corpus αναπτύξιμο. Αν το corpus μπορεί να φύγει από τη δικαιοδοσία, το έργο πιθανότατα δεν είναι αρκετά μεγάλο ή ευαίσθητο ώστε να δικαιολογεί τη sovereign παραλλαγή, και το Lab του ιδιωτικού τομέα είναι η σωστή εμπλοκή.
Η εσωτερική ομάδα είναι δυνατή στον τομέα αλλά αδύναμη στο production ML. Οι τεχνικές ομάδες του δημοσίου τομέα έχουν συνήθως βάθος στον τομέα — επιδημιολόγοι στο υπουργείο υγείας, μηχανικοί σιδηροδρομικής κίνησης στον φορέα, νομικοί επιστήμονες στο υπουργείο δικαιοσύνης. Σπάνια έχουν βάθος στο production ML: fine-tuning pipelines, κατασκευή eval harness, quantization για on-premise inference, τεκμηρίωση Annex IV στο επίπεδο που απαιτεί τώρα ο Κανονισμός. Η εμπλοκή δομείται ώστε να σέβεται την εξειδίκευση στον τομέα — η ομάδα του αγοραστή κατέχει το corpus και τα κριτήρια αποδοχής — παρέχοντας παράλληλα το στρώμα production ML που απαιτούν τόσο ο Κανονισμός όσο και η πύλη προμηθειών.
Η εμπλοκή είναι η φάση ENGINEER της Hyperion Lifecycle, επεκταμένη στις δώδεκα εβδομάδες από τον έλεγχο κυριαρχίας, το πλαίσιο επεξεργασίας δεδομένων, το on-premise provisioning και τη γραμμή εργασιών τεκμηρίωσης Annex IV που τρέχει παράλληλα με το τεχνικό έργο. Η εμπλοκή λειτουργεί υπό συμφωνία επεξεργασίας δεδομένων που καθορίζει EU-sovereign υποδομή για κάθε φάση και απαγορεύει οποιαδήποτε μεταφορά δεδομένων σε μη-ΕΕ δικαιοδοσία σε οποιοδήποτε σημείο. Οι ομάδες προμηθειών και νομικών του αγοραστή συμμετέχουν από την πρώτη εβδομάδα, όχι στο τέλος.
Γραπτή στάση κυριαρχίας: ποια workloads τρέχουν πού, ποιος πάροχος (Scaleway, OVHcloud, Bleu, S3NS ή on-premise), ποιες δικαιοδοσίες θα αγγίξουν τα δεδομένα και ποιες όχι, ποιοι sub-processors είναι στο scope και ποιοι ρητά εξαιρούνται. Η συμφωνία επεξεργασίας δεδομένων συντάσσεται και διαπραγματεύεται με τη νομική ομάδα του αγοραστή, και το sovereign-cloud ή on-premise περιβάλλον εκπαίδευσης προβλέπεται υπ' αυτήν. Η τεκμηρίωση Annex IV ξεκινά παράλληλα — ο τεχνικός φάκελος, το πλαίσιο διαχείρισης κινδύνων, η ενότητα διακυβέρνησης δεδομένων. Μέχρι το τέλος της τρίτης εβδομάδας η εμπλοκή έχει μια εγκεκριμένη νομική και υποδομική στάση πίσω από την οποία μπορεί να σταθεί η υπηρεσία προμηθειών.
Το ιδιόκτητο corpus ελέγχεται για κάλυψη, ποιότητα, προέλευση και νομική βάση χρήσης υπό τον σχετικό τομεακό κανονισμό — GDPR, δίκαιο δημοσίων αρχείων, αμυντική διαβάθμιση, διακυβέρνηση δεδομένων υγείας. Το eval harness χτίζεται απέναντι στον ορισμό εργασίας που έχουν εγκρίνει οι ειδικοί του τομέα του αγοραστή, και τρέχεται μια γραμμή βάσης — όπου επιτρέπεται νομικά — απέναντι σε ένα EU-hosted frontier API για σύγκριση. Τα κριτήρια αξιολόγησης γίνονται μέρος της τεκμηρίωσης Annex IV, όχι ξεχωριστό artefact.
Επιλογή base μοντέλου από τα Llama 3, Mistral και Qwen — όλα open-weight, όλα νομικά αναπτύξιμα σε sovereign υποδομή χωρίς σχέση προμηθευτή που επανεισάγει το πρόβλημα data residency. Η εκπαίδευση τρέχει στις παρεχόμενες sovereign GPUs. Τρέχουμε δομημένα πειράματα — LoRA έναντι full fine-tune, ablations μίξεων δεδομένων — και αξιολογούμε κάθε run απέναντι στη γραμμή βάσης της πέμπτης εβδομάδας. Ο τεχνικός φάκελος Annex IV ενημερώνεται με κάθε ουσιαστική απόφαση: επιλογή base μοντέλου, μίξη δεδομένων, training hyperparameters, αποτελέσματα αξιολόγησης. Η τεκμηρίωση δεν είναι μεταγενέστερη ανακατασκευή· είναι το αρχείο της εμπλοκής καθώς συμβαίνει.
Το inference σηκώνεται στην υποδομή που έχει οριστεί από τον αγοραστή — on-premise GPUs, έναν αφιερωμένο sovereign-cloud tenant ή ένα air-gapped περιβάλλον για απόρρητα workloads. Η τεχνική τεκμηρίωση Annex IV οριστικοποιείται, τα στοιχεία αξιολόγησης συμμόρφωσης συγκεντρώνονται, το σχέδιο παρακολούθησης μετά τη θέση σε λειτουργία γράφεται, και η εγγραφή στη βάση δεδομένων του EU AI Act προετοιμάζεται. Η εσωτερική ομάδα του αγοραστή καθοδηγείται μέσα από το eval harness, το training pipeline και το πλαίσιο τεκμηρίωσης ώστε να μπορεί να λειτουργεί το σύστημα και να επεκτείνει την τεκμηρίωση όταν το μοντέλο επανεκπαιδεύεται. Το μοντέλο, τα weights, το eval, το deployment και το πλήρες conformity pack παραδίδονται ως ένα ενιαίο procurement-ready artefact.
Υπουργεία, περιφερειακές κυβερνήσεις, εθνικές υγειονομικές αρχές, αμυντικές υπηρεσίες, σιδηροδρομικοί και μεταφορικοί φορείς, διαχειριστές ενεργειακών δικτύων και προγράμματα smart-city με περίπτωση χρήσης τομέα που απαιτεί μοντέλο εκπαιδευμένο σε corpus που ο αγοραστής είναι νομικά ή λειτουργικά ανίκανος να στείλει εκτός δικαιοδοσίας ΕΕ. Αγοραστικές αρχές των οποίων η διαδικασία προμηθειών έχει ήδη εντοπίσει εξάρτηση από public-cloud ή frontier-API ως αποκλειστικό κίνδυνο. Προγράμματα όπου ισχύει ο χαρακτηρισμός υψηλού κινδύνου του EU AI Act και η τεχνική τεκμηρίωση Annex IV πρέπει να παραχθεί σε πρότυπο που μπορεί να ελέγξει μια ρυθμιστική αρχή. Αυτό δεν είναι για αγοραστές δημοσίου τομέα των οποίων η περίπτωση χρήσης μπορεί να ανεχθεί ένα public-cloud deployment και μια εμπορική συμφωνία επεξεργασίας δεδομένων — το Domain-Expert LLM Lab του ιδιωτικού τομέα είναι το σωστό σημείο εισόδου σε αυτή τη στάση κινδύνου, σε συντομότερο χρονοδιάγραμμα και χαμηλότερο κόστος. Επίσης δεν είναι για προγράμματα χωρίς ιδιόκτητο corpus· χωρίς το περιουσιακό στοιχείο δεδομένων, η sovereign εμπλοκή δεν έχει πλεονέκτημα που ένα frontier API δεν μπορεί να συναγωνιστεί σε κλάσμα του κόστους.
Οτιδήποτε από τα δύο, αναλόγως της λειτουργικής στάσης του αγοραστή. Το on-premise είναι η σωστή απάντηση για απόρρητα workloads, air-gapped περιβάλλοντα και προγράμματα όπου ο αγοραστής λειτουργεί ήδη ένα cluster GPU. Το sovereign-cloud — Scaleway, OVHcloud, Bleu, S3NS — είναι η σωστή απάντηση για αγοραστές που θέλουν EU-δικαιοδοτικό χειρισμό χωρίς το CapEx και το λειτουργικό βάρος της κατοχής GPUs. Το scope της εμπλοκής δεν αλλάζει· αλλάζει μόνο η δουλειά provisioning στις εβδομάδες ένα έως τρία. Το sovereignty posture document καταγράφει ποια επιλογή έγινε και γιατί, για το ίχνος προμηθειών και ελέγχου.
Ο φάκελος Annex IV είναι το AI-specific στρώμα· η τομεακή σας ρυθμιστική αρχή — υγεία, χρηματοοικονομικά, μεταφορές, άμυνα — θα έχει συνήθως πρόσθετες απαιτήσεις τεκμηρίωσης και διακυβέρνησης που στέκονται δίπλα του. Η εμπλοκή χτίζει τον φάκελο Annex IV στο πρότυπο του Κανονισμού και οι ενότητες διακυβέρνησης δεδομένων, διαχείρισης κινδύνων και αξιολόγησης δομούνται ώστε να επαναχρησιμοποιηθούν στην τομεακή σας υποβολή αντί να ξαναγραφτούν. Δεν παρέχω τομεακές νομικές συμβουλές — η εσωτερική σας νομική ομάδα συμμόρφωσης κατέχει αυτό το κομμάτι — αλλά έχω χτίσει την τεχνική τεκμηρίωση που βρίσκεται κάτω από αρκετές υποβολές προς ρυθμιστικές αρχές για να γνωρίζω τι στοιχεία θέλουν πραγματικά οι ρυθμιστές, που συνήθως είναι διαφορετικό από αυτό που προτείνουν τα κείμενα καθοδήγησης.
Η εμπλοκή τρέχει υπό όποιο όχημα προμηθειών απαιτεί ο αγοραστής — απευθείας σύμβαση, DPS framework, UGAP στη Γαλλία, συμφωνίες-πλαίσια σε επίπεδο ΕΕ. Η εμπορική δομή δεν αλλάζει το τεχνικό scope ή το δωδεκάμηνο χρονοδιάγραμμα, αν και η ίδια η διαδικασία προμηθειών μπορεί να επεκτείνει τον χρόνο προετοιμασίας πριν ξεκινήσει η εμπλοκή. Όπου η ομάδα προμηθειών του αγοραστή δεν έχει υφιστάμενο όχημα που ταιριάζει, μπορώ να δουλέψω μαζί τους για να δομήσουμε ένα· αυτό είναι μέρος του γιατί χτίστηκε ειδικά το credential του France Num AI Ambassador.
Η DPA το καλύπτει ρητά. Η εκπαίδευση συμβαίνει σε EU-sovereign υποδομή υπό συμφωνία επεξεργασίας δεδομένων που καθορίζει τη νομική βάση, τη διατήρηση και τους ελέγχους πρόσβασης για τα προσωπικά δεδομένα καθ' όλη τη διάρκεια της εμπλοκής. Μια DPIA παράγεται ως μέρος του Annex IV documentation pack και αναθεωρείται με τον DPO σας. Όπου το corpus απαιτεί ψευδωνυμοποίηση ή redaction πριν την εκπαίδευση — που συχνά απαιτεί — αυτή η εργασία είναι μέρος της φάσης επιμέλειας δεδομένων της τέταρτης εβδομάδας, όχι παραπροϊόν. Η εμπλοκή είναι σχεδιασμένη να παραγάγει μια GDPR-συμμορφούμενη διαδικασία εκπαίδευσης, όχι απλώς ένα GDPR-συμμορφούμενο αναπτυγμένο μοντέλο.
Όχι. Το πακέτο παραδοτέων είναι σκόπιμα πλήρες: τα weights, το eval harness, το training pipeline, το deployment runbook και το Annex IV documentation framework είναι όλα δικά σας να τα λειτουργήσετε. Η εσωτερική σας ομάδα καθοδηγείται μέσα από κάθε ένα από αυτά στις εβδομάδες έντεκα και δώδεκα ώστε η παράδοση να μην είναι θεωρητική. Κάποιοι αγοραστές δημοσίου τομέα επιλέγουν μια scoped refresh εμπλοκή όταν κυκλοφορεί ένα ουσιαστικά καλύτερο base μοντέλο — Llama 5, μια ισχυρότερη κυκλοφορία Mistral — αλλά αυτό είναι προαιρετικό και τιμολογείται ξεχωριστά. Η εμπλοκή βγαίνει καθαρά· δεν μετατρέπεται σε αόριστο retainer.
30 λεπτά. Διαγιγνώσκω την κατάστασή σας και σας λέω τίμια αν αυτή η υπηρεσία ταιριάζει — κι αν όχι, ποια ταιριάζει.