Lifecycle stage — Build
كل شهر تُطلق فيه منتجاً مبنياً فوق OpenAI أو Anthropic، تدفع ضريبة وتُضاعف ميزة شخص آخر. كانت واجهة API العامة الخيار الصحيح حين كانت حالة استخدامك في المجال غير مُثبتة؛ لكنها الخيار الخاطئ بمجرد أن تكون قد تحقّقت من حالة الاستخدام وبدأت تراكم البيانات التي يجب أن تكون حصنك المنيع. هذه هي مرحلة ENGINEER من Hyperion Lifecycle: ارتباط مخصّص للضبط الدقيق مدته ثمانية أسابيع يُنتج نموذجاً خبيراً بالمجال مُدرّباً على بياناتك الاختصاصية، يُقيَّم مقابل واجهات API الحدودية على مهمتك الفعلية، ويُنشر على بنية تحتية تملكها. صمّمت Auralink — 1.7 مليون سطر من الكود، ~20 وكيلاً مستقلاً، مُراجَعاً بنداً من الأقران على arXiv — على نماذج مفتوحة الأوزان لأن الاقتصاديات وموقع التحكّم اشترطا ذلك. أطلقت ثمانية مشاريع ذكاء اصطناعي تفوّقت فيها نماذج مفتوحة مُضبّطة على واجهات API الحدودية في مهمة المجال. هذه ليست قدرة نظرية.
Your unit economics compress with every user. The generic API call cost €0.004 per 1K tokens when you launched. Usage grew, pricing moved, and your blended cost per active user is now 3.2x what your initial model assumed. Each new user makes your margin worse, not better — the opposite of what a software business is supposed to do. At your current trajectory the API line becomes your largest single expense within four quarters, and your only levers are throttling users or raising prices. Neither is a growth strategy.
Your domain data is building someone else's moat. Every query your users send to a frontier API passes through the provider's infrastructure and, depending on the tier, may contribute to future training. Even when it doesn't, you're not compounding a proprietary capability — you're renting one. Your competitive moat is supposed to be the data nobody else has. Sending that data to OpenAI or Anthropic doesn't fortify the moat, it dilutes it. In regulated industries — legal, medical, industrial, financial — it also creates audit and residency problems you cannot answer.
You have no recourse when the provider changes the deal. OpenAI deprecates a model with 90 days' notice and your production quality regresses overnight. Anthropic changes rate limits and your enterprise customer hits throttling during the demo. Pricing moves 40% and your CFO asks questions you cannot answer. When the vendor is the bottleneck, you have no engineering response — only a procurement one. That is an uncomfortable position for any company whose product depends on the API working exactly the way it worked last quarter.
Your team has read the blog posts and cannot ship the model. Your engineers have watched the fine-tuning tutorials, run LoRA on a toy dataset, posted a Hugging Face card, and declared victory. What they have not done is produce a model that beats the API on production traffic with statistical significance, held to the same evaluation standard as the incumbent. The distance between 'I fine-tuned a model' and 'I shipped a model that wins on the eval' is where 95% of teams fail. It is not a tutorial problem; it is a judgment problem.
يسير الارتباط في أربع مراحل مدة كل منها أسبوعان. أعمل مدمجاً مع فريق التعلم الآلي لديك — مهندسوك يقومون بالعمل، أنا أُقدّم القرارات ومكتبة الأنماط. لا يحدث أي عمل على بنية تحتية لمورد لا نتحكّم بها. تملك البيانات والأوزان وإطار التقييم والنشر في كل خطوة.
النموذج جيد بقدر جودة البيانات وقابل للقياس بقدر قوة إطار التقييم. أُدقّق في كورياسك الاختصاصي من حيث التغطية والجودة والتلوّث والترخيص. نُعرّف مهام التقييم التي تنعكس على حمل عملك الإنتاجي الفعلي — وليس المعايير العامة. نبني إطار التقييم مقابل واجهة API الحدودية القائمة أولاً، حتى يكون لدينا مرجع حقيقي للتفوّق عليه. بنهاية الأسبوع الثاني نعرف كيف يبدو الفوز بالأرقام.
اختيار النموذج الأساسي عبر عائلات Llama 3 وMistral وQwen بناءً على ملف مهمتك — اتباع التعليمات، وعمق الاستدلال، وطول السياق، وتكلفة الاستدلال. نُجري تجارب منظّمة — LoRA مقابل الضبط الكامل، واختلافات خلط البيانات، ومجموعات نقاط الحفظ — ونُقيّم كل تشغيل مقابل مرجع الأسبوع الثاني. معظم التشغيلات ستخسر. هذا متوقّع. الهدف هو العثور على التركيبة التي تفوز باستمرار على مهمتك، لا التي تفوز على لوحة الصدارة.
نُقيم الاستدلال على البنية التحتية التي ستُشغّله عليها فعلاً — وحدات معالجة الرسوميات الخاصة بك، أو مزوّد مخصّص مثل Together أو Fireworks، أو نشر داخلي لأحمال العمل الخاضعة للتنظيم. نُحسّن وفق غلاف الكمون والتكلفة الذي يتطلبه منتجك: التكميم، واستراتيجية التجميع، ومعالجة ذاكرة KV، وإطار التقديم. المخرج نشر يلبّي اتفاقية مستوى الخدمة الإنتاجية لديك وتكلفة لكل طلب تتفوّق على API القائمة بالهامش الذي اشترطته دراسة الجدوى.
جلسات عمل مع فريق التعلم الآلي لديك حتى يملك إطار التقييم وخط أنابيب التدريب ونشر الاستدلال. أُوثّق قرارات التقدير — لماذا اخترنا هذا النموذج الأساسي، ولماذا رفضنا هذه الخلطات من البيانات، ولماذا قبلنا مقايضة التكميم هذه. عندما أرحل، يستطيع فريقك تدريب النسخة التالية من دوني. لا مبلغ تحفّظي، ولا تبعية مستمرة. النموذج والأوزان والكود والتقييم — كلها لك.
المؤسسات والشركات الناشئة المموّلة جيداً التي تُجري أكثر من مليون نداء API سنوياً على النماذج الحدودية ولديها بيانات مجال اختصاصية في قطاع عمودي قابل للدفاع عنه — قانوني، طبي، صناعي، مالي، علمي. فرق المنتجات التي قام فيها الرئيس التنفيذي للذكاء الاصطناعي أو نائب رئيس الهندسة بحساب تكاليف API عند 3 إلى 5 أضعاف الاستخدام الحالي ويعرف أن النموذج لن يصمد. الصناعات الخاضعة للتنظيم التي يجعل فيها إقليم البيانات أو التدقيق أو قيود الملكية الفكرية التبعية لواجهات API الحدودية مسؤولية. هذا ليس للفرق التي ليست لديها بيانات اختصاصية — فالضبط الدقيق العام لا يتفوّق على واجهات API الحدودية ولا ينبغي محاولته. ليس أيضاً للفرق تحت عتبة حجم النداءات حيث لا تتجاوز النفقات الرأسمالية نقطة التعادل الحسابي؛ تدقيق الجاهزية نقطة دخول أفضل.
لأننا نقيس ذلك في الأسبوع الثاني، قبل بدء أي تدريب. يُبنى إطار التقييم مقابل مرجع API الحدودية أولاً، حتى نعرف بالضبط ما الذي يتطلّبه الفوز. إذا كان المرجع بالفعل عند السقف الذي تسمح به مهمتك، سأُخبرك في الأسبوع الثاني ونتوقّف — تحتفظ بإطار التقييم والتشخيص، ولا نُكمل التدريب. عملياً، على مهام المجال الضيّقة ببيانات اختصاصية حقيقية، يفوز نموذج مفتوح مُدرَّب جيداً على الجودة ويهيمن على التكلفة. على المهام العامة الواسعة، لا تزال واجهات API الحدودية متقدّمة وسأقول ذلك.
تُعيد التدريب. لأن فريقك يملك إطار التقييم وخط أنابيب التدريب، فإن إعادة تشغيل الوصفة على نموذج أساسي جديد هي تمرين مدته أسبوع إلى أسبوعين، لا تمرين مدته ثمانية أسابيع. قرارات التقدير الموثّقة في سجل القرارات تنتقل معك. هذه الميزة الهيكلية لامتلاك الأوزان مقابل استئجار API — عندما تتحسّن التقنية الأساسية، يلتقط فريقك التحسين وفق جدولك الزمني، لا جدول المورّد.
عادةً لا للتدريب، وأحياناً نعم للاستدلال، حسب ملف تكلفتك وموقفك التنظيمي. يعمل التدريب لثمانية أسابيع عادةً على H100s مؤجّرة بتكلفة إجمالية تتراوح بين 15 و40 ألف يورو، حسب حجم النموذج وعدد التجارب. قرارات الاستدلال تُتّخذ حالة بحالة: Together أو Fireworks للاستدلال المخصّص دون نفقات رأسمالية، أو وحداتك الخاصة لأقصى تحكّم وهامش عند الحجم الكبير، أو نشر داخلي للبيانات الخاضعة للتنظيم. أبني نموذج التكلفة عبر الخيارات الثلاثة في الأسبوع السادس حتى يُتّخذ القرار بالأرقام، لا بالافتراضات.
إذا كان فريقك قد أطلق بالفعل نموذجاً مُضبّطاً تفوّق على API الحدودية في تقييم إنتاجي بدلالة إحصائية، فأنت على الأرجح لا تحتاجني. معظم الفرق لم تفعل ذلك — أنجزت عمل الدروس التعليمية لكن ليس عمل التقدير. أُحضر تمييز الأنماط من ثمانية عمليات نشر إنتاجية: أي نموذج أساسي لأي ملف مهمة، وأي خلطات من البيانات تُساعد باستمرار مقابل التي تبدو واعدة وتضر، وأي مستويات تكميم آمنة عند أي حجم. يقوم فريقك بالعمل؛ أُقصّر المسافة بين قدرته الحالية ونموذج في الإنتاج بعدة تكرارات.
يحدث التدريب على بنية تحتية توافق عليها، بموجب اتفاقية معالجة بيانات تطابق متطلبات الامتثال لديك. لأحمال العمل الخاضعة للتنظيم — الطبية، والقانونية، والمالية — نستخدم وحدات معالجة رسوميات داخلية أو سحابة سيادية وأوقّع على ما يُطلب. لا تلمس كوربيوسك الاختصاصي أبداً بنية تحتية لمزوّد حدودي في أي مرحلة من مراحل هذا الارتباط، وهذا جزء من الهدف. قصة إقليم البيانات مُخرج، وليست فكرة مُلحقة.
استكشف خدمات أخرى تُكمّل هذا العرض
٣٠ دقيقة. أشخّص وضعك وأخبرك بصراحة ما إذا كانت هذه الخدمة مناسبة — وإن لم تكن، فأيها مناسب.