Lifecycle stage — Build
هذا ليس مختبر LLM الخبير بالمجال للقطاع الخاص. بل هو تكييفه للقطاع العام. وزارة، أو هيئة صحية إقليمية، أو وكالة دفاع، أو مشغّل سكة حديد وطني، أو برنامج مدينة ذكية، لا تستطيع استخدام الارتباط القياسي لأنه يفترض مرونة السحابة العامة واتفاقية معالجة بيانات تجارية. متغيّر القطاع العام لا يفعل. تعمل كل مرحلة من الارتباط على بنية تحتية سيادية — Scaleway، OVHcloud، Bleu، S3NS، أو وحدات GPU داخلية للمشتري. لا تغادر أي بيانات أرض الاتحاد الأوروبي. لا يكون أي مزوّد خدمات ضخم أمريكي في المسار الحرج. تبقى كوربيوسات التدريب داخل البلاد طوال الارتباط وبعده. يمتدّ الجدول الزمني إلى اثني عشر أسبوعاً لأن أربعة منها هي تدقيق السيادة، والتفاوض على اتفاقية معالجة البيانات، وعمل توثيق الملحق الرابع، وتوفير البنية الداخلية التي يتخطاها ارتباط القطاع الخاص. تُبنى حزمة التسليم لتكون جاهزة للمشتريات: النموذج، والأوزان، وإطار التقييم، والنشر الداخلي، والتوثيق الفني الكامل وفق الملحق الرابع، تُسلَّم إلى المشتري كأداة واحدة متوافقة مع المشتريات. مختبر القطاع الخاص أسرع وأرخص؛ إذا كانت حالة استخدامك تتحمّل نشراً في السحابة العامة واتفاقية معالجة بيانات تجارية، فذلك الارتباط هو الخيار الصحيح وهذا ليس كذلك.
The procurement gate cannot approve a frontier-API deployment. The standard commercial answer — wrap a frontier API, sign a DPA, deploy — does not clear public-sector procurement in most EU member states. The data residency, the sub-processor chain, the transfer-impact assessment, and the Schrems II exposure on US-hosted inference combine into a procurement risk that the buying authority cannot absorb. The project stalls in the compliance review, often for quarters, and the eventual answer is either a sovereignty carve-out the vendor will not accept or a complete redesign on EU-only infrastructure. Starting on sovereign infrastructure from day one is the shorter path.
EU AI Act obligations are now operative and the documentation burden is real. High-risk AI systems under the Act — which covers most ministry, healthcare, and critical-infrastructure use cases — require Annex IV technical documentation, conformity assessment, post-market monitoring, and a registration in the EU database. Producing that documentation retrospectively, after a model has been trained and deployed, is expensive and often incomplete. Integrating it into the engagement from day one is materially cheaper and produces a documentation trail that survives a regulator audit. Most private-sector engagements do not need this; public-sector engagements almost always do.
The proprietary corpus is the whole point and cannot leave the jurisdiction. The reason a public-sector body is doing a domain model at all is that the corpus — classified ministry archives, national health records, defence technical manuals, procurement law precedent, rail operational telemetry — is exactly the asset that cannot be sent to a US cloud for training. A generic API wrapper was never going to use this corpus; a fine-tuned model on sovereign infrastructure is the only architecture that makes the corpus deployable. If the corpus can leave the jurisdiction, the project is probably not large enough or sensitive enough to justify the sovereign variant, and the private-sector Lab is the right engagement instead.
The internal team is strong on domain but thin on production ML. Public-sector technical teams are usually deep on the domain — epidemiologists at the health ministry, rail traffic engineers at the operator, legal scholars at the justice department. They are rarely deep on production ML: fine-tuning pipelines, eval harness construction, quantization for on-premise inference, Annex IV documentation at the level the Act now requires. The engagement is structured to respect the domain expertise — the buyer's team owns the corpus and the acceptance criteria — while providing the production ML layer the Act and the procurement gate both require.
الارتباط هو مرحلة ENGINEER من Hyperion Lifecycle، موسّعة إلى اثني عشر أسبوعاً بفضل تدقيق السيادة، وإطار معالجة البيانات، وتوفير البنية الداخلية، ومسار توثيق الملحق الرابع الذي يسير بالتوازي مع العمل التقني. يعمل الارتباط تحت اتفاقية معالجة بيانات تُحدّد بنية تحتية سيادية داخل الاتحاد الأوروبي لكل مرحلة وتحظر أي نقل بيانات إلى ولاية قضائية خارج الاتحاد في أي وقت. تُشارَك فرق المشتريات والشؤون القانونية لدى المشتري منذ الأسبوع الأول، لا في النهاية.
موقف سيادة مكتوب: أي أحمال عمل تعمل أين، وأي مزوّد (Scaleway، OVHcloud، Bleu، S3NS، أو داخلي)، وأي ولايات قضائية ستلمسها البيانات ولن تلمسها، وأي معالجين ثانويين في النطاق وأيهم مستبعد تحديداً. تُصاغ اتفاقية معالجة البيانات ويُتفاوض عليها مع الفريق القانوني للمشتري، وتُوفَّر بيئة التدريب السحابية السيادية أو الداخلية بموجبها. يبدأ توثيق الملحق الرابع بالتوازي — الملف التقني، وإطار إدارة المخاطر، وقسم حوكمة البيانات. بنهاية الأسبوع الثالث يكون للارتباط موقف قانوني وبنية تحتية مُعتمد تستطيع المشتريات الدعم وراءه.
يُدقَّق في الكوربس الاختصاصي من حيث التغطية والجودة والمصدر والأساس القانوني للاستخدام بموجب التنظيم القطاعي ذي الصلة — GDPR، قانون السجلات العامة، تصنيف الدفاع، حوكمة البيانات الصحية. يُبنى إطار التقييم مقابل تعريف المهمة الذي وقّع عليه خبراء المجال لدى المشتري، ويُجرى مرجع — حيث يُسمح قانونياً — مقابل API حدودي مُستضاف في الاتحاد الأوروبي للمقارنة. تُصبح معايير التقييم جزءاً من توثيق الملحق الرابع، لا أداة منفصلة.
اختيار النموذج الأساسي عبر Llama 3 وMistral وQwen — كلها مفتوحة الأوزان، وكلها قابلة للنشر قانونياً على بنية تحتية سيادية دون علاقة بمورد تُعيد إدخال مشكلة إقامة البيانات. يعمل التدريب على وحدات GPU السيادية المُوفَّرة. نُجري تجارب منظّمة — LoRA مقابل الضبط الكامل، واختلافات خلط البيانات — ونُقيّم كل تشغيل مقابل مرجع الأسبوع الخامس. يُحدَّث الملف الفني وفق الملحق الرابع مع كل قرار جوهري: خيار النموذج الأساسي، وخليط البيانات، ومعاملات التدريب التشعّبية، ونتائج التقييم. التوثيق ليس إعادة بناء بأثر رجعي؛ بل سجل الارتباط وهو يحدث.
يُقام الاستدلال على البنية التحتية المحدّدة للمشتري — وحدات GPU داخلية، أو مستأجر مخصّص في سحابة سيادية، أو بيئة معزولة عن الشبكة لأحمال العمل المصنّفة. يُستكمل التوثيق الفني وفق الملحق الرابع، وتُجمَّع أدلة تقييم المطابقة، وتُكتب خطة المراقبة بعد طرح السوق، ويُعدّ التسجيل في قاعدة بيانات قانون الاتحاد الأوروبي للذكاء الاصطناعي. يُسار بالفريق الداخلي للمشتري عبر إطار التقييم، وخط أنابيب التدريب، وإطار التوثيق حتى يستطيعوا تشغيل النظام وتوسيع التوثيق عند إعادة تدريب النموذج. تُسلَّم النموذج والأوزان والتقييم والنشر وحزمة المطابقة الكاملة كأداة واحدة جاهزة للمشتريات.
الوزارات، والحكومات الإقليمية، والهيئات الصحية الوطنية، ووكالات الدفاع، ومشغّلو السكك الحديدية والنقل، ومشغّلو شبكات الطاقة، وبرامج المدن الذكية، التي لها حالة استخدام اختصاصية تتطلّب نموذجاً مُدرَّباً على كوربس لا يستطيع المشتري قانونياً أو تشغيلياً إرساله خارج ولاية الاتحاد الأوروبي. السلطات المشترية التي حدّدت عملية مشترياتها بالفعل تبعية السحابة العامة أو API الحدودي كمخاطرة مُقصية. البرامج التي تنطبق عليها تصنيفات المخاطر العالية لقانون الاتحاد الأوروبي للذكاء الاصطناعي وحيث يجب إنتاج توثيق الملحق الرابع الفني بمعيار قابل للتدقيق من جهة تنظيمية. هذا ليس لمشتري القطاع العام الذين تتحمّل حالة استخدامهم نشراً في السحابة العامة واتفاقية معالجة بيانات تجارية — فمختبر LLM الخبير بالمجال للقطاع الخاص هو نقطة الدخول الصحيحة عند ذلك الموقف من المخاطر، بجدول زمني أقصر وتكلفة أقل. وهذا ليس أيضاً للبرامج التي ليس لديها كوربس اختصاصي؛ دون أصول البيانات، لا يوجد للارتباط السيادي ميزة لا يستطيع API حدودي مطابقتها بجزء من التكلفة.
أي منهما، حسب الموقف التشغيلي للمشتري. الداخلي هو الجواب الصحيح لأحمال العمل المصنّفة، والبيئات المعزولة، والبرامج التي يُشغّل فيها المشتري بالفعل عنقود GPU. السحابة السيادية — Scaleway أو OVHcloud أو Bleu أو S3NS — هي الجواب الصحيح للمشترين الذين يريدون معالجة داخل ولاية الاتحاد الأوروبي دون النفقات الرأسمالية والعبء التشغيلي لامتلاك وحدات GPU. لا يتغيّر نطاق الارتباط؛ يتغيّر فقط عمل التوفير في الأسابيع 1-3. تُوثّق وثيقة موقف السيادة أي خيار اتُّخذ ولماذا، لمسار المشتريات والتدقيق.
ملف الملحق الرابع هو الطبقة الخاصة بالذكاء الاصطناعي؛ ستكون لجهتك التنظيمية القطاعية — الصحة، والمالية، والنقل، والدفاع — عادةً متطلبات توثيق وحوكمة إضافية تقف بجانبه. يبني الارتباط ملف الملحق الرابع وفق معيار القانون، وتُهيكَل أقسام حوكمة البيانات وإدارة المخاطر والتقييم لإعادة استخدامها في تقديمك القطاعي بدلاً من إعادة كتابتها. لا أُقدّم مشورة قانونية قطاعية — مستشار الامتثال الداخلي لديك يتولى ذلك — لكنني بنيت التوثيق الفني الذي يكمن تحت ما يكفي من التقديمات الموجّهة للجهات التنظيمية لأعرف ما الأدلة التي تريدها الجهات التنظيمية فعلاً، وهي عادةً مختلفة عمّا تقترحه وثائق التوجيه.
يسير الارتباط تحت أي وسيلة مشتريات يتطلبها المشتري — عقد مباشر، إطار DPS، UGAP في فرنسا، اتفاقيات إطارية على نطاق الاتحاد الأوروبي. لا يُغيّر الهيكل التجاري النطاق التقني ولا الجدول الزمني المحدّد باثني عشر أسبوعاً، رغم أن عملية المشتريات نفسها قد تُمدّد الوقت الممهد قبل بدء الارتباط. حيث لا تكون لدى فريق مشتريات المشتري وسيلة قائمة مناسبة، يمكنني العمل معهم لهيكلة واحدة؛ هذا جزء ممّا صُمّم له اعتماد سفير France Num للذكاء الاصطناعي تحديداً.
تُغطّيها DPA صراحة. يحدث التدريب على بنية تحتية سيادية داخل الاتحاد الأوروبي بموجب اتفاقية معالجة بيانات تُحدّد الأساس القانوني والاحتفاظ وضوابط الوصول للبيانات الشخصية طوال الارتباط. يُنتَج تقييم أثر حماية البيانات كجزء من حزمة توثيق الملحق الرابع ويُراجَع مع DPO لديك. حيث يتطلّب الكوربس إخفاء الهوية أو الحجب قبل التدريب — وهو ما يتطلّبه غالباً — يكون ذلك العمل جزءاً من مرحلة تنظيم البيانات في الأسبوع الرابع، لا فكرة لاحقة. يُصمَّم الارتباط لإنتاج عملية تدريب متوافقة مع GDPR، لا مجرد نموذج مُنشَر متوافق مع GDPR.
لا. حزمة التسليم مكتملة عمداً: الأوزان، وإطار التقييم، وخط أنابيب التدريب، وكتاب نشر التشغيل، وإطار توثيق الملحق الرابع، كلها لك لتشغيلها. يُسار بفريقك الداخلي عبر كل منها في الأسبوعين الحادي عشر والثاني عشر حتى لا يكون التسليم نظرياً. يختار بعض مشتري القطاع العام ارتباط تحديث مُحدّد النطاق عند إطلاق نموذج أساسي أفضل جوهرياً — Llama 5، أو إصدار Mistral أقوى — لكن ذلك اختياري ومُسعّر بشكل منفصل. يخرج الارتباج نظيفاً؛ لا يتحوّل إلى عقد تحفّظي غير محدّد.
٣٠ دقيقة. أشخّص وضعك وأخبرك بصراحة ما إذا كانت هذه الخدمة مناسبة — وإن لم تكن، فأيها مناسب.