تفشل معظم مشاريع الذكاء الاصطناعي بسبب البيانات لا بسبب النماذج. يغطي هذا الدليل كل شيء، من تقييم جودة البيانات إلى التعلّم الآلي الذي يحافظ على الخصوصية، ويمنح مديري البيانات والقادة المخطط لبناء أساس بيانات يجعل الذكاء الاصطناعي يعمل فعلًا.
لدى قطاع الذكاء الاصطناعي سرّ مُحرج: غالبية مشاريع الذكاء الاصطناعي تفشل، والبيانات هي الجاني الأساسي. وجد استطلاع أجرته Gartner عام 2024 أن 73 % من المؤسسات تشير إلى جودة البيانات بوصفها العائق الأكبر أمام تبنّي الذكاء الاصطناعي. ليس بنية النماذج. وليس تكاليف الحوسبة. وليس نقص المواهب. بل البيانات.
ومع ذلك، تخصّص معظم المؤسسات ميزانيات الذكاء الاصطناعي بنسب خاطئة تمامًا. فهي تُنفق 80 % على تطوير النماذج و20 % على البيانات، في حين أن العكس من شأنه أن يحقق نتائج أفضل بمراحل. Andrew Ng يدافع بحركته للذكاء الاصطناعي المتمحور حول البيانات عن هذه الفكرة منذ عام 2021، والأدلة تتراكم باستمرار.
من المؤسسات تشير إلى جودة البيانات بوصفها العائق الأكبر أمام تبنّي الذكاء الاصطناعي
من مشاريع الذكاء الاصطناعي/التعلّم الآلي لا تصل أبدًا إلى النشر في الإنتاج
وقت أطول يُقضى في تحضير البيانات مقارنةً بتدريب النماذج
مبدأ «garbage in, garbage out» حرفي بلا رحمة في التعلّم الآلي. فالانحدار اللوجستي المدرَّب على بيانات نظيفة وحسنة التسمية سيتفوق في كل مرة على محوّل (transformer) متطور مدرَّب على بيانات صاخبة وغير متسقة. ولا يمكن لأكثر بُنى النماذج تطورًا أن تعوّض عن بيانات تُحرّف العالم الحقيقي.
هذا الدليل مبني على فرضية أن استراتيجية البيانات المنهجية هي الاستثمار الأعلى رافعةً الذي يمكن لمؤسسة أن تقوم به لنجاح الذكاء الاصطناعي. يتناول كل قسم ركيزة بالغة الأهمية، من تقييم الجودة إلى الحوكمة إلى الخصوصية، مع أُطر عملية يمكنك البدء في تطبيقها هذا الربع.
تُنفق الشركات روتينيًا أكثر من 500 ألف دولار على عناقيد GPU وضبط النماذج قبل أن تُنفق 50 ألف دولار على تدقيق جودة البيانات. النتيجة متوقعة: نماذج عالية الأداء تنتج تنبؤات عديمة القيمة لأن بيانات تدريبها لم تكن قط ملائمة للغرض. أصلِح البيانات أولًا. فالنماذج هي الجزء السهل.
جودة البيانات ليست مقياسًا واحدًا. إنها بناء متعدد الأبعاد يجب تقييمه عبر ستة أبعاد مستقلة. يمكن لمجموعة بيانات أن تحصل على درجة كاملة في الاكتمال بينما تفشل فشلًا ذريعًا في الدقة. عليك قياس الأبعاد الستة جميعها.
هل جميع الحقول المطلوبة معبّأة؟ ما النسبة المئوية للسجلات التي تحتوي على قيم فارغة أو مفقودة؟
احسب معدل القيم الفارغة لكل عمود؛ علِّم أي حقل تتجاوز نسبة الفقد فيه 5 % باعتباره حرجًا
سجلات العملاء التي تفتقر إلى تصنيف القطاع تجعل نماذج التقسيم عديمة الفائدة
هل تعكس القيم حقيقة العالم الواقعي؟ هل توجد أخطاء منهجية ناتجة عن إدخال البيانات أو علل ETL؟
قارِن عيّنة بنسبة 1–2 % بمصدر الحقيقة؛ قِس معدل الخطأ لكل حقل
العناوين التي تُعبّأ تلقائيًا بواسطة إضافات المتصفح تُدخِل تلفًا صامتًا على نطاق واسع
هل تستخدم المفاهيم نفسها التمثيل نفسه عبر الأنظمة وعبر الزمن؟
أجرِ فحوص الأصلية على الحقول الفئوية؛ امسح بحثًا عن الترميزات المكررة (مثل US مقابل USA مقابل United States)
دمج بيانات CRM وERP حيث تعني «revenue» قيمة ARR في نظام وقيمة MRR في آخر
هل البيانات متاحة عند الحاجة إليها؟ ما مقدار التأخر بين وقوع الحدث وتوفر البيانات؟
قِس زمن استيعاب البيانات من طرف إلى طرف؛ تتبّع اتفاقيات مستوى الخدمة (SLA) لمدى حداثة البيانات لكل خط أنابيب
نموذج كشف الاحتيال المدرَّب على بيانات T+3 يفوته أنماط مرئية في التدفقات الفورية
هل توجد سجلات مكررة؟ هل يمكن إزالة تكرار الكيانات بشكل موثوق عبر المصادر؟
أجرِ مطابقة تقريبية على حقول الكيانات الرئيسية؛ قِس معدل التكرار قبل إزالة التكرار وبعدها
سجلات العملاء المكررة تضخّم تنبؤات فقدان العملاء وتشوّه حسابات القيمة مدى الحياة
هل تتوافق القيم مع قواعد العمل والصيغ والنطاقات المقبولة المحددة؟
حدِّد قواعد تحقق لكل حقل (regex، نطاق، enum)؛ نفِّذ فحوص قيود مؤتمتة
حقل العمر الذي يحتوي على 999 أو قيم سالبة يجتاز فحوص القيم الفارغة لكنه يكسر النماذج الديموغرافية
قيِّم كل بُعد على مقياس من 1 إلى 5 لكل مجموعة بيانات حرجة. 1 = لا قياس ولا ضوابط. 3 = فحوص مؤتمتة مع ثغرات معروفة. 5 = مراقبة مستمرة مع معالجة مؤتمتة. أي بُعد يحصل على درجة أقل من 3 يُعدّ عائقًا أمام ذكاء اصطناعي موثوق. والدرجات الإجمالية الأقل من 18/30 تعني أن أساس بياناتك ليس جاهزًا للتعلّم الآلي في الإنتاج وينبغي أن يكون الأولوية قبل أي عمل على النماذج.
تتطلب أحمال عمل الذكاء الاصطناعي متطلبات بنية تحتية مختلفة عن ذكاء الأعمال التقليدي. عليك دعم حساب السمات على نطاق واسع، ومجموعات بيانات تدريب مُصدَّرة بإصدارات، والخدمة الفورية، والتجارب القابلة للتكرار. وقد برز نمط data lakehouse بوصفه البنية المهيمنة لهذا الغرض.
بيانات خام كما استُوعبت. لا تحويلات ولا تنظيف. هذه هي مصدر الحقيقة الثابت ومسار التدقيق لديك.
بيانات منظَّفة ومزالة التكرار ومُوحَّدة. مخططات معيارية، ومعرّفات كيانات محلولة، ومُتحقَّق منها مقابل قواعد الجودة.
تجميعات على مستوى الأعمال ومجموعات سمات منسَّقة جاهزة للاستهلاك من قِبل نماذج التعلّم الآلي ولوحات المعلومات والتطبيقات.
متجر السمات هو الجسر بين منصة بياناتك ونماذج التعلّم الآلي لديك. يوفّر مستودعًا مركزيًا لتعريفات السمات، ويتولّى حساب السمات على دفعات وفي الزمن الفعلي، ويضمن الاتساق بين التدريب والخدمة (مشكلة انحراف التدريب-الخدمة).
يتطلب التعلّم المُوجَّه بيانات مُسمّاة، وغالبًا ما تكون التسمية الجزء الأكثر كلفةً واستهلاكًا للوقت في مشروع التعلّم الآلي. والمفتاح هو اختيار الاستراتيجية المناسبة لقيودك: الميزانية والجدول الزمني وتعقيد المجال والدقة المطلوبة.
| الاستراتيجية | التكلفة / التسمية | الجودة | السرعة | الأنسب لـ |
|---|---|---|---|---|
| التوصيف البشري (داخليًا) | $2 - $8 | Highest | Slow | المجالات عالية المخاطر، ومهام التسمية المعقدة، والتصنيفات الخاصة |
| التعهيد الجماعي (MTurk, Scale AI) | $0.05 - $1 | Medium-High | Fast | المهام البسيطة كبيرة الحجم، وتصنيف الصور، وتحليل المشاعر |
| التعلّم النشط | $0.50 - $3 | High | Medium | المشاريع محدودة الميزانية، والتحسين التكراري للنماذج، وسيناريوهات البدء البارد |
| الإشراف الضعيف (بأسلوب Snorkel) | $0.001 - $0.01 | Medium | Very Fast | مجموعات البيانات الضخمة غير المُسمّاة، والإرشادات الجيدة الفهم، وإطلاق التسميات |
| التسمية بمساعدة LLM | $0.01 - $0.10 | Medium-High | Fast | تصنيف النصوص، واستخراج الكيانات، والمهام التي تبلغ فيها نماذج LLM جودة شبه بشرية |
يقلّل التعلّم النشط تكاليف التسمية بنسبة 40 إلى 70 % من خلال جعل النموذج يختار أي الأمثلة هي الأكثر إفادةً لتسميتها تاليًا. فبدلًا من التسمية عشوائيًا، تُسمّي الأمثلة التي يكون النموذج أكثر تيقنًا من عدمها بشأنها.
إذا تعذّر على المُوصِّفين لديك الاتفاق على التسميات، فلن يستطيع نموذجك تعلّم أنماط متسقة. قِس الـ IAA دائمًا قبل توسيع جهود التسمية.
احرص دائمًا على أن يُسمّي 3 مُوصِّفين على الأقل عيّنة تداخل بنسبة 10 % لحساب الـ IAA. استخدم الخلافات لتحديد مناطق الإرشادات الملتبسة.
اكتب دوال تسمية تُرمِّز إرشادات المجال (أنماط regex، وقوائم الكلمات المفتاحية، والإشراف البعيد من قواعد المعرفة) وادمجها باستخدام نموذج تسمية يحلّ التعارضات ويقدّر الدقة. يمكن لنهج Snorkel أن يولّد ملايين التسميات الاحتمالية بتكلفة حدّية تقارب الصفر. والمقايضة هي دقة أقل لكل تسمية، يعوّضها الحجم الهائل. استخدم هذا للإطلاق، ثم حسِّن بالتعلّم النشط على حالات الخطأ.
البيانات الاصطناعية هي بيانات مُولَّدة اصطناعيًا تحاكي الخصائص الإحصائية للبيانات الحقيقية. تتوقع Gartner أنه بحلول عام 2030 ستُستخدم البيانات الاصطناعية بوتيرة أكبر من البيانات الحقيقية في تدريب نماذج الذكاء الاصطناعي. وفهم متى وكيف تستخدمها يغدو كفاءة أساسية.
وسِّع مجموعة التدريب لديك بإنشاء تنويعات من البيانات الموجودة. للصور: التدوير، والاقتصاص، وتذبذب الألوان، وCutout، وMixUp. للنصوص: استبدال المرادفات، والترجمة العكسية، وخلط الجمل. للبيانات الجدولية: SMOTE لاختلال توازن الفئات، وحقن الضوضاء، واضطراب السمات.
ولِّد بيانات تحافظ على التوزيعات الإحصائية والارتباطات من مجموعة البيانات الأصلية دون أن تحتوي على معلومات أي فرد حقيقي. بالغ الأهمية لمشاركة البيانات عبر الحدود التنظيمية أو مع شركاء خارجيين مع البقاء متوافقًا مع GDPR.
بيانات العالم الحقيقي منحازة بشدة نحو السيناريوهات الشائعة. تتيح لك البيانات الاصطناعية توليد الحالات الحدّية النادرة لكن الحرجة التي يحتاج نموذجك إلى التعامل معها. تولّد المركبات ذاتية القيادة ملايين سيناريوهات شبه الاصطدام الاصطناعية. ويولّد كشف الاحتيال المالي أنماط هجوم اصطناعية لم تُرصد قط في الإنتاج.
تتجاوز الحوكمة للذكاء الاصطناعي حوكمة البيانات التقليدية. عليك تتبّع ليس البيانات فحسب، بل تحويلاتها إلى سمات، ودورها في مجموعات بيانات التدريب، وأثرها في تنبؤات النموذج. وهنا تفشل كثير من المؤسسات: فهي تحوكم المستودع لكن ليس خط أنابيب التعلّم الآلي.
جرد قابل للبحث لكل مجموعة بيانات وجدول وسمة في مؤسستك. وبدونه، يقضي علماء البيانات 30 % من وقتهم في مجرد العثور على البيانات وفهمها.
تتبّع كل جزء من البيانات من مصدره عبر كل تحويل حتى استخدامه النهائي في تنبؤ نموذج. أساسي لتصحيح الأخطاء والامتثال وتحليل الأثر.
أذونات دقيقة تتحكم في مَن يستطيع قراءة البيانات وكتابتها واستخدامها للتدريب. يجب أن تتجاوز قوائم التحكم بالوصول (ACL) لقواعد البيانات لتشمل متاجر السمات وخطوط أنابيب تدريب النماذج.
تتطلب قابلية تكرار التعلّم الآلي إدارة إصدارات ليس للشيفرة والنماذج فحسب، بل أيضًا لمجموعات البيانات الدقيقة المستخدمة في التدريب. وبدون ذلك، لا يمكنك تكرار التجارب ولا تفسير تغيّرات سلوك النموذج.
تمتلك كل مجموعة بيانات معرّفًا فريدًا وبيانات وصفية غنية، وتكون مُفهرَسة في كتالوج قابل للبحث. ينبغي لعلماء البيانات اكتشاف البيانات ذات الصلة في دقائق، لا في أيام.
البيانات قابلة للاسترجاع عبر واجهات برمجة معيارية مع مصادقة واضحة. سياسات الوصول موثَّقة، والبيانات متاحة بصيغ يمكن لأدوات التعلّم الآلي استهلاكها مباشرة.
تستخدم البيانات مفردات مشتركة وصيغًا معيارية (Parquet, Arrow) وتتبع مخططات مُتفقًا عليها. يمكن لفِرق مختلفة دمج مجموعات البيانات دون ترجمة يدوية.
شروط ترخيص واستخدام واضحة، ومصدر شامل، وتوثيق جودة، كي يتسنّى إعادة استخدام مجموعات البيانات بثقة لنماذج وحالات استخدام جديدة.
مع استهلاك أنظمة الذكاء الاصطناعي مزيدًا من البيانات الشخصية، لم تعد الخصوصية مجرد خانة امتثال. إنها تخصص هندسي يضم تقنيات ناضجة تتيح لك تدريب النماذج على بيانات حساسة دون كشف السجلات الفردية. ويعتمد النهج الصحيح على بيئتك التنظيمية ونموذج التهديد لديك ومتطلبات الأداء.
درّب النماذج عبر مصادر بيانات لامركزية دون نقل البيانات الخام. يتدرب كل عقدة محليًا ولا يشارك سوى تحديثات النموذج.
لا تغادر البيانات قط نطاق ولايتها القضائية؛ يدعم مبدأ تقليل البيانات
عبء الاتصال؛ توزيع البيانات غير المستقل والمتماثل (non-IID) قد يضر بالتقارب
البحوث الطبية متعددة المستشفيات، وكشف الاحتيال المالي عبر الحدود، والتنبؤ بلوحة المفاتيح على الهاتف
أضف ضوضاء مُعايَرة إلى نتائج الاستعلامات أو تدرّجات التدريب بحيث يتعذّر استنتاج السجلات الفردية عكسيًا من المخرجات.
ضمان رياضي بأن نقاط البيانات الفردية لا يمكن تحديد هويتها؛ ميزانية خصوصية قابلة للدفاع عنها
فقدان دقة يتناسب مع ميزانية الخصوصية (epsilon)؛ مجموعات البيانات الصغيرة تعاني أكثر
نشر بيانات التعداد، ولوحات معلومات التحليلات المجمَّعة، وتدريب النماذج على بيانات موارد بشرية حساسة
تحسب أطراف متعددة معًا دالة على بياناتها المجمَّعة مع إبقاء مدخلاتها الفردية خاصة.
لا يرى أي طرف قط البيانات الخام لطرف آخر؛ نصوص بروتوكول مواتية للتدقيق
عبء حوسبي مرتفع للغاية (أبطأ بمقدار 100 إلى 1000 مرة)؛ تصميم بروتوكول معقد
تقييم المخاطر المشترك بين البنوك، وتحليلات سلسلة التوريد بين المنافسين، والتجارب الطبية التعاونية
عمِّم أو اقمع شبه المعرّفات بحيث يكون كل سجل غير قابل للتمييز عن k-1 سجلات أخرى على الأقل في مجموعة البيانات.
إثبات امتثال مباشر؛ مفهوم على نطاق واسع لدى الجهات التنظيمية
فقدان معلومات بسبب التعميم؛ عرضة لهجمات التركيب على الإصدارات المتكررة
نشر مجموعات البيانات المفتوحة، ومشاركة بيانات البحوث، والإبلاغ التنظيمي بسجلات على مستوى الأفراد
إخفاء الهوية ليس كافيًا. لا يعتبر GDPR البيانات «مجهولة الهوية» إذا كانت هناك أي وسيلة معقولة لإعادة تحديد الهوية، وقد أظهرت الأبحاث أنه يمكن إعادة تحديد هوية 99.98 % من الأفراد في أي مجموعة بيانات انطلاقًا من 15 سمة ديموغرافية فقط. ضع هذه المتطلبات في الحسبان:
لا تكون استراتيجية البيانات أقوى من الفريق الذي ينفّذها. ويتطلب تقديم الذكاء الاصطناعي مزيجًا من الأدوار لم تكن موجودة قبل عقد. وأكثر أنماط الفشل شيوعًا هو توظيف علماء البيانات قبل مهندسي البيانات، مما ينتج محللين بارعين يقضون 80 % من وقتهم في سباكة البيانات.
إذا كنت تبني فريق بيانات وذكاء اصطناعي من الصفر، فهذا هو الترتيب الذي يعظّم الوقت حتى تحقيق القيمة ويتجنّب أكثر الأخطاء شيوعًا:
قبل أن تتمكن من تحسين استراتيجية بياناتك، عليك معرفة أين تقف. يمنحك نموذج النضج هذا المؤلَّف من خمسة مستويات إطارًا لتقييم ذاتي صادق وخارطة طريق ملموسة لكل مرحلة من الرحلة. ومعظم المؤسسات التي نقيّمها تقع بين المستوى 2 والمستوى 3.
تعيش البيانات في جداول البيانات ومرفقات البريد الإلكتروني والحواسيب المحمولة الفردية. لا كتالوج بيانات، ولا تتبّع نسب، ولا حوكمة. وتستغرق طلبات البيانات أيامًا لأن لا أحد يعرف مكان أي شيء.
توجد قواعد بيانات أساسية ومستودع بيانات، لكن مشكلات الجودة لا تُكتشف إلا عند تعطّل شيء ما. تصلح الفِرق المشكلات بعد أن تتسبب في إخفاقات لاحقة. وتوجد بعض خطوط الأنابيب لكنها هشّة.
تُراقَب جودة البيانات باستمرار. يوجد كتالوج بيانات والناس يستخدمونه فعلًا. وتوجد عقود بيانات بين فِرق المنتجين والمستهلكين. وتلتقط معظم المشكلات قبل أن تصل إلى الإنتاج.
تُعامَل البيانات كمنتج باتفاقيات مستوى خدمة وقابلية اكتشاف ووصول ذاتي الخدمة. وتمكّن متاجر السمات فِرق التعلّم الآلي من إعادة استخدام بيانات منسَّقة. والحوكمة مؤتمتة لا يدوية.
استراتيجية البيانات ميزة تنافسية. جودة بيانات مدفوعة بالذكاء الاصطناعي، وكشف آلي للشذوذ، وحلقات تغذية راجعة مستمرة من نماذج التعلّم الآلي عائدةً إلى خطوط أنابيب البيانات. وتتخذ المؤسسة قرارات مستندة إلى البيانات بشكل افتراضي.
ابنِ أنظمة retrieval-augmented generation تعمل في الإنتاج
تنقّل في متطلبات GDPR وEU AI Act لبياناتك وأنظمة الذكاء الاصطناعي لديك
احمِ أنظمة الذكاء الاصطناعي وخطوط أنابيب البيانات لديك من الهجمات العدائية