ابنِ أنظمة التوليد المعزز بالاسترجاع التي تعمل فعلياً في الإنتاج. من قرارات البنية إلى أطر التقييم، يغطي هذا الدليل كل ما تحتاجه لإطلاق أنظمة RAG موثوقة.
Retrieval-Augmented Generation (RAG) هو نمط معماري يعزّز نماذج اللغة الكبيرة بتزويدها بسياق ذي صلة من مصادر معرفة خارجية. فبدلاً من الاعتماد فقط على بيانات تدريب النموذج، يسترجع RAG المستندات ذات الصلة وقت الاستدلال ويستخدمها لتأصيل إجابات النموذج.
تحل هذه المقاربة عدة قيود جوهرية في نماذج LLM:
ومع ذلك، فإن أنظمة RAG لا تكون أفضل من تنفيذها. فالتقطيع السيئ أو الاسترجاع غير الكافي أو الـ prompts غير المتوائمة قد تُنتج أنظمة تهلوس بقدر نماذج LLM العادية — لكن بثقة زائفة. يغطي هذا الدليل الأنماط التي تنجح.
يتكوّن نظام RAG الإنتاجي من ستة مكوّنات أساسية، لكلٍّ منها اعتباراته الخاصة بالتحسين. وفهم هذه المكوّنات ضروري لبناء أنظمة قابلة للتوسّع.
تحميل المستندات المصدرية بصيغ مختلفة ومعالجتها المسبقة
تقسيم المستندات إلى أجزاء ذات معنى دلالي
تحويل أجزاء النص إلى تمثيلات متجهية كثيفة
تخزين وفهرسة الـ embeddings لاسترجاع فعّال
العثور على الأجزاء ذات الصلة لاستعلام معيّن
توليد الإجابات باستخدام السياق المسترجَع
في أنظمة الإنتاج، افصل خط أنابيب الاستيعاب عن خط أنابيب الاستعلامات. يمكن أن يعمل الاستيعاب بشكل غير متزامن (المعالجة بالدفعات، الطوابير)، بينما تحتاج الاستعلامات إلى تنفيذ متزامن منخفض الكمون. يتيح هذا الفصل توسّعاً مستقلاً.
غالباً ما يكون التقطيع القرار الحاسم في RAG. فالتقطيع السيئ يؤدي إلى عمليات استرجاع غير ذات صلة وسياق ناقص. وتعتمد الاستراتيجية الصحيحة على أنواع مستنداتك وأنماط استعلاماتك.
| الاستراتيجية | الأنسب لـ | المفاضلات | التعقيد |
|---|---|---|---|
| حجم ثابت | مستندات بسيطة، بنية متسقة | قد يكسر الوحدات الدلالية | Low |
| قائم على الجمل | محتوى اللغة الطبيعية | أحجام أجزاء متغيرة | Medium |
| دلالي | مستندات معقدة، مواضيع متنوعة | تكلفة حوسبة أعلى | High |
| هرمي | مستندات طويلة، استرجاع متعدد المستويات | تنفيذ معقد | High |
تحوّل الـ embeddings النص إلى متجهات رقمية تلتقط المعنى الدلالي. ويؤثر اختيار نموذج الـ embedding المناسب وقاعدة بيانات المتجهات المناسبة على جودة الاسترجاع والكمون والتكلفة.
| النموذج | الأبعاد | الأداء | التكلفة | ملاحظات |
|---|---|---|---|---|
| OpenAI text-embedding-3-large | 3072 | ممتاز | $$ | أفضل جودة إجمالية، يدعم تقليل الأبعاد |
| Cohere embed-v3 | 1024 | جيد جداً | $$ | متعدد اللغات، خيارات الضغط |
| Voyage AI | 1024 | ممتاز | $$$ | تتوفر نماذج خاصة بالمجال |
| BGE-large | 1024 | جيد | Free | مفتوح المصدر، خيار الاستضافة الذاتية |
| Mistral Embed | 1024 | جيد جداً | $ | مزود أوروبي، متوافق مع GDPR |
بداية سريعة، بنية تحتية مُدارة
بحث هجين، API GraphQL
الأداء، التصفية الدقيقة
التطوير، النماذج الأولية
بنية Postgres التحتية الحالية
البحث الدلالي الأساسي هو مجرد نقطة البداية. تستخدم أنظمة الإنتاج استراتيجيات استرجاع متعددة لتعظيم الصلة.
ادمج البحث المتجهي الكثيف مع البحث المتفرق بالكلمات المفتاحية (BM25). يلتقط هذا كلاً من التطابقات الدلالية والتطابقات الدقيقة للكلمات المفتاحية التي قد يفوتها البحث المتجهي.
استخدم نموذج cross-encoder لإعادة ترتيب نتائج الاسترجاع الأولية. أكثر كلفة لكنه يحسّن بشكل كبير صلة نتائج top-k.
استخدم نموذج LLM لتوليد عدة صيغ للاستعلام أو تفكيك الاستعلامات المعقدة إلى استعلامات فرعية. استرجِع لكلٍّ منها وادمج النتائج.
قم بالتصفية المسبقة حسب البيانات الوصفية (التاريخ، المصدر، الفئة) قبل البحث المتجهي. ضروري لمجموعات المستندات الكبيرة والأنظمة متعددة المستأجرين.
تقوم مرحلة التوليد بتجميع السياق المسترجَع في إجابة متماسكة. وتُعدّ هندسة الـ prompt وتنسيق السياق حاسمَين للجودة.
حتى مع نوافذ السياق 128k+، ليس المزيد من السياق أفضل دائماً. تُظهر الدراسات أن نماذج LLM تواجه صعوبة مع المعلومات في «منتصف» السياقات الطويلة. اقصر السياق المسترجَع على 3-5 أجزاء عالية الصلة، واستخدم reranking لضمان الجودة على الكمية.
لا يمكنك تحسين ما لا تقيسه. تحتاج أنظمة RAG الإنتاجية إلى تقييم مستمر عبر أبعاد متعددة.
| المقياس | الوصف | الهدف | كيفية القياس |
|---|---|---|---|
| دقة الاسترجاع | % الأجزاء المسترجَعة ذات الصلة | > 80% | وسم يدوي لنتائج الاسترجاع |
| استرجاع الاستدعاء | % الأجزاء ذات الصلة التي يتم استرجاعها | > 90% | مقارنة بمجموعة بيانات مرجعية |
| صلة الإجابة | مدى جودة معالجة الإجابة للاستعلام | > 85% | LLM كحَكَم أو تقييم بشري |
| الأمانة | الإجابة مؤصَّلة في السياق المسترجَع | > 95% | استخراج الادعاءات والتحقق منها |
| الكمون (P95) | زمن الاستجابة من البداية إلى النهاية | < 3s | مراقبة الأداء |
إطار مفتوح المصدر لتقييم RAG بمقاييس للأمانة والصلة واسترجاع السياق.
قابلية الملاحظة في الإنتاج مع التتبّع والتقييمات وإدارة إصدارات الـ prompt.
يتطلب الانتقال من النموذج الأولي إلى الإنتاج معالجة الموثوقية والأمان والشؤون التشغيلية.
إلى جانب RAG الأساسي، تعالج هذه الأنماط حالات استخدام محددة وتدفع حدود الممكن.
استخدم حلقة وكيل لتحسين الاسترجاع تكرارياً. يمكن للوكيل أن يقرر متى يبحث، وعمّ يبحث، ومتى يمتلك سياقاً كافياً للإجابة.
الأنسب للأسئلة المعقدة متعددة الخطواتابنِ رسماً بيانياً للمعرفة من المستندات واجتَز العلاقات أثناء الاسترجاع. يتيح الاستدلال متعدد القفزات والاستعلامات المتمركزة حول الكيانات.
الأنسب للمجالات المنظَّمة ذات العلاقاتدرِّب النموذج أو وجِّهه ليقرر متى يلزم الاسترجاع، ويقيّم صلة الاسترجاع، وينتقد ذاتياً الإجابات المولَّدة.
يقلّل عمليات الاسترجاع غير الضروريةقيّم جودة الاسترجاع وارجع إلى البحث على الويب أو مصادر أخرى عندما تكون المعرفة الداخلية غير كافية أو غير موثوقة.
يحسّن التغطية للحالات الحدية