Lifecycle stage — Ship
تجربة الذكاء الاصطناعي التي أطلقتها الربع الماضي تفعل ما يُفترض أن تفعله التجارب — مستخدمون حقيقيون، ونتائج حقيقية، وملاحظات حقيقية — والالتزام التالي الذي يتعيّن عليها حمله أكبر مما بُني له النظام الحالي. إطلاق مؤسسي، أو تشغيل قطاع عام، أو طرح في شركة صغيرة ومتوسطة عبر مواقع متعدّدة، أو جمع جولة Series A — كل واحد من هذه بوابة مرحلية تجارية تكشف ثغرات تحمّلتها التجربة ولا يستطيع نظام الإنتاج تحمّلها. هذه هي مرحلة LAUNCH من DEPLOY Method: ارتباط مدمج مدته 12 أسبوعاً يأخذ تجربة عاملة عبر تقييم الجاهزية، والتقييم والمراقبة، والأمن والامتثال، والجاهزية للتوسّع. العمل ليس براقاً ونادراً ما هو ما يريد فريقك الهندسي إنفاق ربع عليه — لكنه ما يفصل المنظمات التي تُحوّل التجارب إلى أنظمة إنتاج عن المنظمات التي تستمر في التجريب إلى الأبد. صمّمت Auralink — 1.7 مليون سطر من الكود الإنتاجي، ونحو 20 وكيلاً مستقلاً يحلّون 78% من الحوادث دون تدخّل بشري، مُراجعة من الأقران على arXiv — وأطلقت ثمانية مشاريع ذكاء اصطناعي إلى الإنتاج. قدّمت أيضاً المشورة لأكثر من 30 شركة ذكاء اصطناعي ناشئة بصفة مرشد في Berkeley SkyDeck عبر هذا الانتقال تحديداً. تتكرّر أنماط الفشل، وتُعرف الإصلاحات، والتسلسل مهم.
The evaluation practice that got you to pilot cannot answer 'did this model update improve or regress.' You evaluated during development with spot checks and a small validation set. Production evaluation is a different discipline — structured eval suites, regression tests, statistical methodology, objective quality baselines. Without it, every model change becomes a gamble. The first time a key stakeholder — an enterprise customer, a regulator, a ministerial sponsor, a board member — asks you to prove the system got better, you will not have an answer, and the stage gate stalls.
You find out your system is broken when a stakeholder tells you, not when a dashboard does. You have no AI-specific observability: no latency distributions under real load, no model drift detection, no cost-per-request tracking, no alerting on the failure modes that matter. Every incident becomes a forensics exercise measured in days. In a pilot this is tolerable because everyone is in the same room. In production it is unacceptable because the commitment is bigger and the room is larger.
SOC 2, GDPR, PII defense, and audit trails are aspirational and your first production commitment will not be forgiving. The enterprise procurement team wants a SOC 2 report. The public sector sponsor wants a data residency statement that holds up. The EU AI Act risk classification is waiting. The PII redaction strategy that worked during pilot is not documented in the form a compliance reviewer will accept. These are invisible until you are three weeks into a procurement conversation or an audit that is about to fall through — and at that point the work is measured in quarters, not sprints.
Your inference path has never been load-tested at realistic concurrent traffic. You do not know whether your bottleneck is model serving, vector database throughput, LLM provider rate limits, or your own backend. The pilot ran at pilot scale. The commercial rollout will multiply that load by five to fifty times depending on the commitment. The first time you hit real concurrent traffic you will find out which layer breaks — and you will find out in front of the people whose approval the stage gate depends on.
يسير الارتباط في أربع مراحل مدة كل منها ثلاثة أسابيع. أعمل مدمجاً مع فريقك — مهندسوك يبنون، أنا أُحضر ترتيب الجاهزية، ومنهجية التقييم، وتسلسل الامتثال، واختبارات التوسّع التي أجريتها على أنظمتي الإنتاجية الخاصة وعلى أكثر من 30 شركة ذكاء اصطناعي ناشئة عبر هذا الانتقال. الهدف ليس إعادة بناء ما يعمل؛ الهدف تقسيته إلى نظام يجتاز بوابته المرحلية التجارية القادمة بالأدلة، لا بالأمل.
أتعمّق في نظامك الحالي — الكود، والبنية التحتية، وخطوط أنابيب البيانات، وممارسة التقييم، وموقف الأمن، والمراقبة، والجاهزية التشغيلية. أُنتج تقييم جاهزية مكتوباً مرتّباً على أربعة مستويات: معوّقات البوابة المرحلية (تُصلح الآن، الالتزام التالي يفشل دونها)، والمعوّقات التشغيلية (تُصلح هذا الربع، لا يمكنك العمل عند النطاق التجاري دونها)، ومخاطر التوسّع (تُصلح قبل مضاعفة الحمل)، والتنقيحات (تُصلح عند توفر الطاقة). لكل عنصر تقدير جهد واقتراح مالك. هذا هو نفس العمل الذي تكشفه الفحوصات النافية للمسؤولية التقنية الراقية أو مراجعة المشتريات المؤسسية — لكن مُنتج من حليف، لا خصم.
النظامان اللذان تفتقدهما تجربتك ولا يستطيع إصدار الإنتاج لديك العيش دونهما. أبني خط أنابيب تقييم منظّم بمرجعيات واختبارات انحدار ومقاييس جودة موضوعية — حتى يستطيع فريقك إطلاق تحديثات النموذج بثقة قابلة للقياس بدلاً من عقد الأصابع. نُقيم مراقبة خاصة بالذكاء الاصطناعي: توزيعات الكمون، ومحاسبة الرموز، وتكلفة كل طلب، وكشف انحراف النموذج، ولوحات الأداء التي سيقرأها فريق عملياتك خلال الحوادث. تُصبح هذه أدوات فريقك اليومية، لا مخرجاً أُسلّمه وأغادر.
سجلات التدقيق، وضوابط الوصول، ودفاعات حقن التعليمات، ومعالجة المعلومات الشخصية، وسياسات الاحتفاظ بالبيانات، ومسار التوثيق الذي سيقبله فعلاً مُراجعو SOC 2 أو GDPR أو قانون الاتحاد الأوروبي للذكاء الاصطناعي. لارتباطات القطاع العام، تُبنى قصة الإقامة والسيادة في المعمارية، لا تُثبَّت عليها. للصناعات الخاضعة للتنظيم، تطابق سلسلة الأدلة النظام الذي يعمل عليه قائد الامتثال لديك. إذا قمنا بها بشكل صحيح، تأخذ هذه المرحلة ثلاثة أسابيع وتُعطيك أساساً متيناً. إذا قمنا بها بشكل خاطئ — وهو ما يحدث عندما تبدأ قبل أسبوعين من موعد نهائي للمشتريات — تتحوّل إلى مسيرة امتثال مميتة مدتها ستة أشهر خلال أهم التزامك. نقوم بها بشكل صحيح من المرة الأولى.
أنماط حمل واقعية بناءً على الالتزام الذي أنت على وشك اتخاذه — حجم الطرح المؤسسي، وقاعدة مستخدمي القطاع العام، والبصمة متعدّدة المواقع للشركات الصغيرة والمتوسطة، ومنحنى النمو في عرض Series A. نعثر على الاختناقات — تشبّع خدمة النموذج، وإنتاجية قاعدة بيانات المتّجهات، وحدود معدّل مزوّد LLM، واقتران الواجهة الخلفية — ونُصلح تلك التي ستعضّك عند الحمل الذي ستراه فعلاً. نُوثّق تلك التي تختار قبولها والإشارات التي على فريقك مراقبتها عندما تبدأ تلك المقايضات تهم. لا يجب أن تكون نقطة انعطاف التوسّع لديك مفاجأة.
المؤسسات التي تُعدّ إطلاقاً لمنتج ذكاء اصطناعي أو أول نشر لعميل كبير. هيئات القطاع العام التي تقترب من تشغيل بظهور وزاري أو تنظيمي. الشركات الصغيرة والمتوسطة التي تنقل تجربة ناجحة من موقع واحد إلى بصمة متعدّدة المواقع. الشركات الناشئة ذات الأصل في الذكاء الاصطناعي المتّجهة إلى Series A بعملية فحص نافية للمسؤولية تفحص جاهزية الإنتاج. أي منظمة لها تجربة بمستخدمين حقيقيين، وبوابة مرحلية تجارية على التقويم، وفريق يعرف أن النظام الحالي لم يُبنَ لما هو قادم. هذا ليس للفرق التي «تجربتها» عبارة عن دفتر ملاحظات — تلك المنظمات تحتاج أولاً إلى سبرينت الاستراتيجية أو تدقيق الجاهزية. وهذا ليس أيضاً للمنظمات التي تفتقد الطاقة الهندسية للاندماج مع الارتباط؛ يفترض نموذج التسليم فريقاً سيمتلك النظام بعد الأسبوع الثاني عشر.
لأن التجربة بُنيت لحمل تجريبي، ومستخدمين تجريبيين، وتسامح تجريبي. الالتزام التجاري القادم — سواء كان إطلاقاً مؤسسياً أو تشغيلاً أو طرحاً متعدّد المواقع أو جمع تمويل — يُضاعف الحمل، ويرفع حدّ التسامح، ويُضيف مُراجعين لن يقبلوا «يعمل في الاختبار». حوالي ثلث التجارب التي أُقيّمها في الأسبوع الأول تتّضح أنها أقرب إلى جاهزية الإنتاج ممّا ظنّ الفريق، وفي تلك الحالات يركّز الارتباط على الثغرات المحدّدة بدلاً من البرنامج الكامل. سأخبرك بصراحة في الأسبوع الثالث ما إذا كان البرنامج الكامل مُبرَّراً.
خدمة الشركات الناشئة معايرة لفحص Series A النافي للمسؤولية، ومشتريات العملاء المؤسسيين، وأنماط الفشل المحدّدة للشركات الناشئة ذات الأصل في الذكاء الاصطناعي. هذه الخدمة هي نفس المنهجية معمّمة عبر الإطلاقات المؤسسية، وتشغيلات القطاع العام، والطروحات متعدّدة المواقع للشركات الصغيرة والمتوسطة، وجمع تمويلات الشركات الناشئة. إذا كنت شركة ناشئة ذات أصل في الذكاء الاصطناعي قبل Series A، فالنسخة المخصّصة للشركات الناشئة مناسبة أكثر لأن اللغة والمخرجات معايرة لبوابتك المرحلية. ينبغي لكل جمهور آخر استخدام هذه.
نعم، وأفعل ذلك كثيراً. يمتلك مُكامل الأنظمة لديك طبقة التكامل، وسباكة بيانات المؤسسة، وإدارة التغيير، أو أي نطاق تم الارتباط به. أملك جاهزية الإنتاج الخاصة بالذكاء الاصطناعي — التقييم، والمراقبة، وأمن الذكاء الاصطناعي، وتوسيع الاستدلال. نلتقي أسبوعياً حتى تتوافق المخرجات ويكون التسليم إلى فريق عملياتك نظيفاً. قمت بهذا جنباً إلى جنب مع مُكاملي أنظمة كبار وشركات متخصّصة؛ تعمل الحدود عندما يحترم كلا الجانبين النطاق.
حينها لا يكون هذا الارتباط المناسب على الأرجح. تقسية التجربة إلى الإنتاج برنامج جاهزية إنتاجية، لا برنامج تحسين نموذج. إذا كانت جودة نموذج تجربتك هي المشكلة، فأنت تحتاج مختبر LLM الخبير بالمجال. إذا كانت معمارية تجربتك هي المشكلة — خصوصاً لأنظمة الوكلاء المتعدّدين — فأنت تحتاج Agentic System Engineering. أقوم بهذا القرار بصراحة في الأسبوع الأول. تشغيل برنامج جاهزية على نظام يكون النموذج الأساسي أو المعمارية اختناقه هدر لميزانيتك.
لنطاق التجربة إلى الإنتاج، نعم، بالمستوى الذي يتطلبه تصنيف المخاطر لديك. للأنظمة محدودة المخاطر أو ذات الحد الأدنى من المخاطر، يندرج عمل الامتثال داخل مرحلة الأمن والامتثال. للأنظمة عالية المخاطر، يكون عمل قانون الاتحاد الأوروبي للذكاء الاصطناعي كبيراً بما يكفي ليسير جنباً إلى جنب مع هذا الارتباط بمسار عمل خاص به. أُحدّد نطاق ذلك في الأسبوع الأول بناءً على تصنيفك وسأكون صريحاً إذا استدعى عبء الامتثال ارتباطاً منفصلاً بدلاً من تمديد هذا الارتباط.
استكشف خدمات أخرى تُكمّل هذا العرض
٣٠ دقيقة. أشخّص وضعك وأخبرك بصراحة ما إذا كانت هذه الخدمة مناسبة — وإن لم تكن، فأيها مناسب.