تنفق معظم الفرق على استدلال نماذج LLM بمقدار 3 إلى 10 أضعاف ما ينبغي. يغطي هذا الدليل تقنيات الهندسة التي تخفض التكاليف بنسبة 60-90% دون التضحية بجودة المخرجات -- من توجيه النماذج والتخزين المؤقت الدلالي إلى اقتصاديات الـ fine-tuning وتحليل نقطة التعادل للاستضافة الذاتية.
لتكاليف نماذج LLM عادة سيئة في النمو بشكل أُسّي. ما يبدأ كنموذج أولي يمكن التحكم فيه بتكلفة 200 دولار/يوم يصبح سريعًا كابوس إنتاج بتكلفة 2000 دولار/يوم. الحساب بسيط لكنه قاسٍ: التسعير لكل token x الاستخدام المتزايد x تضخم نافذة السياق = منحنيات تكلفة أُسّية.
إليك سيناريو واقعي نراه مرارًا: يبني فريق روبوت محادثة لدعم العملاء. أثناء التطوير، يختبرون بمحادثات قصيرة واستعلامات بسيطة. التكلفة: 8 دولارات/يوم. يطلقونه لـ 500 مستخدم. تصبح المحادثات أطول، وتمتلئ نوافذ السياق، ويُفعَّل منطق إعادة المحاولة عند انتهاء المهلات، وينمو الـ system prompt مع كل إصلاح لحالة حدّية. في غضون ثلاثة أسابيع، يكلف روبوت المحادثة نفسه 2400 دولار/يوم -- زيادة بمقدار 300 ضعف لم يضعها أحد في الميزانية.
أطلقت شركة SaaS من فئة B2B مساعدًا ذكيًا يستخدم GPT-4o لجميع الاستعلامات. كان مسار تكلفتها كالتالي:
بعد تطبيق التقنيات الواردة في هذا الدليل (التوجيه + التخزين المؤقت + ضغط الـ prompt)، خفّضوا التكاليف إلى 320 دولارًا/يوم عند 500 مستخدم -- بانخفاض قدره 87%.
قبل التحسين، عليك أن تفهم أين تذهب الأموال. تنقسم تكاليف LLM إلى عدة فئات متمايزة، ويتفاوت التوزيع بشكل كبير حسب نوع التطبيق.
الـ system prompts، وسجل المحادثة، والسياق المسترجَع (RAG)، وأمثلة few-shot. هنا تذهب معظم الأموال، وهنا تكمن أكبر التوفيرات.
الردود المُولَّدة. تكلف tokens الإخراج 2 إلى 4 أضعاف tokens الإدخال لكل token، لكن الحجم عادةً أقل. الردود المطوّلة هي المحرّك الرئيسي للتكلفة.
توليد الـ embeddings، وحوسبة الـ fine-tuning، وتخزين المتجهات، والتسجيل، وبنية المراقبة التحتية. صغيرة لكل وحدة لكنها تتراكم على نطاق واسع.
| النموذج | المزوّد | الإدخال | الإخراج | السياق | ملاحظات |
|---|---|---|---|---|---|
| GPT-4o | OpenAI | $2.50 | $10.00 | 128K | الأفضل للأغراض العامة، متعدد الوسائط |
| GPT-4o mini | OpenAI | $0.15 | $0.60 | 128K | ممتاز للمهام البسيطة، إدخال أرخص بـ 17 مرة من 4o |
| Claude Sonnet 4.6 | Anthropic | $3.00 | $15.00 | 200K | استدلال قوي، نافذة سياق كبيرة |
| Claude Haiku 4.5 | Anthropic | $0.80 | $4.00 | 200K | سريع، فعّال من حيث التكلفة للتصنيف |
| Mistral Large 3 | Mistral | $2.00 | $6.00 | 128K | مزوّد أوروبي، متوافق مع اللائحة العامة لحماية البيانات (GDPR) |
| Llama 4 Maverick (self-hosted) | Meta (open-source) | ~$0.30* | ~$0.30* | 1M | تكلفة GPU فقط، دون رسوم لكل token |
* تكاليف الاستضافة الذاتية تقريبية، استنادًا إلى استئجار GPU من طراز A100 بسعر ~2 دولار/ساعة لتشغيل Llama 4 Maverick عبر vLLM. تعتمد التكاليف الفعلية على الإنتاجية ومعدل الاستخدام.
تكلف tokens إدخال GPT-4o مبلغ 2.50 دولار/مليون. ويكلف GPT-4o mini مبلغ 0.15 دولار/مليون. هذا فارق سعري قدره 17 ضعفًا. وبالنسبة للتصنيف والاستخراج والأسئلة والأجوبة البسيطة، غالبًا ما يكون فارق الجودة ضئيلًا. يستغل توجيه النماذج هذه الفجوة.
توجيه النماذج هو التحسين الأعلى أثرًا. الفكرة بسيطة: وجّه المهام السهلة إلى نماذج رخيصة والمهام الصعبة إلى نماذج باهظة. معظم أحمال الإنتاج تتكون بنسبة 70-80% من مهام بسيطة يتولاها نموذج صغير على نحو مثالي. التوفير النموذجي: 60-80%.
يصنّف نموذج صغير أو خوارزمية إرشادية مدى تعقيد الاستعلام، ثم يوجّهه إلى طبقة النموذج المناسبة.
التوجيه حسب نوع المهمة: تصنيف، استخراج، تلخيص، توليد، استدلال. تُربط كل مهمة بنموذج أمثل.
ابدأ بالنموذج الأرخص. إذا كانت الثقة منخفضة أو فشلت الاستجابة في التحقق، فصعّد إلى نموذج أكبر.
يتحقق نموذج تحقق صغير مما إذا كانت مخرجات النموذج الرخيص تبلغ عتبات الجودة قبل إرجاعها.
استخدم مُصنِّفًا خفيف الوزن (انحدار لوجستي على الـ embeddings، أو نظام قائم على القواعد) لتقييم تعقيد الاستعلام على مقياس من 0 إلى 1. التكلفة: ~0.01 مللي ثانية لكل استعلام.
تذهب الدرجة < 0.3 إلى GPT-4o mini (0.15 دولار/مليون إدخال). وتذهب الدرجة 0.3-0.7 إلى Claude Haiku 4.5 (0.80 دولار/مليون). وتذهب الدرجة > 0.7 إلى GPT-4o (2.50 دولار/مليون).
إذا أرجع النموذج الرخيص مخرجات منخفضة الثقة أو فشل في التحقق، فصعّد تلقائيًا إلى الطبقة التالية. عادةً ما يُصعَّد 5-10% فقط من الاستعلامات.
انتقلت منصة دعم عملاء تعالج 50000 استعلام/يوم من استخدام GPT-4o لكل شيء إلى إعداد توجيه: 72% إلى GPT-4o mini، و20% إلى Claude Haiku 4.5، و8% إلى GPT-4o. انخفضت التكلفة الشهرية من 38000 دولار إلى 6200 دولار -- بانخفاض قدره 84% دون أي تدهور ملموس في الجودة على مجموعة التقييم الخاصة بهم.
إذا سأل مستخدم «ما هي سياسة الإرجاع لديكم؟» وسأل آخر «كيف أُرجِع منتجًا؟»، فهما يريدان الإجابة نفسها. يكتشف التخزين المؤقت الدلالي هذه الاستعلامات المتشابهة ويقدّم ردودًا مخزّنة مؤقتًا بدلًا من إجراء استدعاءات API زائدة. وبالنسبة للتطبيقات ذات أنماط الاستعلام المتكررة، يمكن لهذا وحده أن يخفض التكاليف بنسبة 30-60%.
| النهج | معدل الإصابة | الجهد | التوفير | الأنسب لـ |
|---|---|---|---|---|
| تخزين مؤقت بالمطابقة التامة | 10-20% | Low | Low | استعلامات متطابقة متكررة (روبوتات الأسئلة الشائعة، الإكمال التلقائي) |
| تخزين مؤقت دلالي (جيب التمام > 0.95) | 30-50% | Medium | High | أسئلة متشابهة بالإجابة نفسها (دعم العملاء) |
| تخزين مؤقت واعٍ بالـ prompt | 40-60% | High | Very High | نفس الـ system prompt + استعلامات مستخدمين متشابهة |
| تخزين مؤقت للبادئة (مستوى API) | تلقائي | None | Medium | system prompts مشتركة عبر الطلبات (Anthropic، OpenAI) |
ولّد متجه embedding لاستعلام المستخدم باستخدام نموذج embedding سريع (مثل text-embedding-3-small بسعر 0.02 دولار/مليون token).
استخدم Redis مع وحدة البحث المتجهي (RediSearch) أو قاعدة بيانات متجهية خفيفة. اضبط العتبة عند تشابه جيب تمام 0.95+ لدقة عالية.
عند الإصابة: أرجِع الرد المخزّن مؤقتًا في أقل من 50 مللي ثانية. عند الإخفاق: استدعِ الـ LLM، وخزّن النتيجة مع الـ embedding وقيمة TTL (مثل 24 ساعة للمحتوى الديناميكي، و7 أيام للثابت).
كل token في الـ prompt الخاص بك يكلّف مالًا. تحتوي معظم prompts الإنتاج على 30-50% من tokens زائدة -- تعليمات مطوّلة وأمثلة غير ضرورية وتنسيق لا يحتاجه النموذج. يُعد تحسين الـ prompt نقطة البداية الأقل جهدًا والأعلى عائدًا.
أزِل التعليمات الزائدة، واستخدم الاختصارات، ووحّد القواعد. غالبًا ما يُضغَط system prompt من 2000 token إلى 800 token دون أي فقدان في الجودة.
استبدل أمثلة few-shot المطوّلة بتعليمات موجزة. درّب نموذجًا صغيرًا بالـ fine-tuning على الأمثلة بدلًا من تمريرها في كل استدعاء.
استخدم وضع JSON أو استدعاء الدوال (function calling) لإزالة النثر المطوّل. تضيف عبارة «اشرح استدلالك» أكثر من 200 token لكل رد.
ضمّن سجل المحادثة ذا الصلة فقط. لخّص الأدوار القديمة. أزِل رسائل النظام التي تعلّمها النموذج بالفعل عبر الـ fine-tuning.
اضبط max_tokens بشكل مناسب. استخدم «كن موجزًا» أو «أجب في أقل من 100 كلمة» في الـ prompt. تسلسلات الإيقاف للإنهاء المبكر.
السلوك نفسه، مع 67% أقل من tokens الإدخال. عند 50 ألف طلب/يوم باستخدام GPT-4o، يوفّر هذا ~190 دولارًا/يوم (5700 دولار/شهر) على tokens الـ system prompt وحدها.
إذا كان حِملك لا يتطلب ردودًا فورية، فإن واجهات batch API تقدّم خفضًا فوريًا للتكلفة بنسبة 50% دون أي جهد هندسي. تقدّم Batch API من OpenAI، وMessage Batches من Anthropic، ومعظم المزوّدين تسعيرًا مخفّضًا للمعالجة غير المتزامنة.
بالنسبة للأحمال المختلطة، نفّذ قائمة انتظار تفصل بين الطلبات الفورية والطلبات المؤهلة للدفعات. استخدم قوائم انتظار ذات أولوية لتوجيه العمل الحساس لزمن الاستجابة إلى واجهات API المتزامنة، وكل ما عداه إلى نقاط نهاية الدفعات.
يتيح لك الـ fine-tuning استبدال نموذج كبير + prompt معقّد بنموذج صغير مغروس فيه السلوك. الاقتصاديات مقنعة: يمكن لنموذج GPT-4o mini المُحسَّن بالـ fine-tuning أن يضاهي جودة GPT-4o في المهام الضيقة بتكلفة استدلال تبلغ 1/15. لكن للـ fine-tuning تكاليف أولية، ولا يستحق العناء إلا عند نطاق كافٍ.
| النهج | التكلفة/1000 استدعاء | الجودة | زمن الاستجابة | تكلفة الإعداد | نقطة التعادل |
|---|---|---|---|---|---|
| GPT-4o + prompt مفصّل | $25.00 | 95% | High | $0 | N/A |
| GPT-4o mini + few-shot | $1.50 | 88% | Low | $0 | N/A |
| GPT-4o mini مُحسَّن بالـ fine-tuning | $0.90 | 93% | Low | $50-200 | ~300 |
| Llama 4 Scout مُحسَّن بالـ fine-tuning (مستضاف ذاتيًا) | $0.10 | 90% | Very Low | $500-2000 | ~2,000 |
عند الحجم الكبير، يمكن للاستضافة الذاتية للنماذج مفتوحة المصدر (Llama 4، Mistral Large 3، Qwen) أن تخفض التكاليف لكل token بنسبة 80-95%. المقايضة هي التعقيد التشغيلي: تحتاج إلى بنية GPU تحتية، وتقديم النماذج (model serving)، والمراقبة، ودعم التأهب. تعتمد نقطة التعادل على حجمك.
| الخيار | 100K req/mo | 1M req/mo | 10M req/mo | المزايا | العيوب |
|---|---|---|---|---|---|
| OpenAI API (GPT-4o) | $2,500 | $25,000 | $250,000 | لا عمليات تشغيل، دائمًا أحدث نموذج | أعلى تكلفة حدية، الارتباط بالمزوّد |
| استئجار GPU (A100 80GB) | $2,000 | $2,000 | $6,000 | تكلفة ثابتة عند الحجم الكبير، بقاء البيانات محليًا | عبء تشغيلي، تخطيط السعة |
| أجهزة مملوكة (H100) | $4,500* | $4,500* | $4,500* | أقل تكلفة على المدى الطويل، تحكم كامل | تكلفة أولية مرتفعة (30-40 ألف دولار)، إهلاك |
* تُستهلَك تكلفة الأجهزة المملوكة على مدى 36 شهرًا. لا تشمل الكهرباء (~200 دولار/شهر لـ H100)، أو مساحة الرفّ، أو موظفي التشغيل.
استضِف ذاتيًا عندما يكون لديك (أ) حجم ثابت يتجاوز مليون token/يوم، (ب) فريق ML ops أو استعداد لبنائه، (ج) متطلبات سيادة بيانات (GDPR، HIPAA)، أو (د) إنفاق على API يتجاوز 5000 دولار/شهر. تحت هذه العتبات، نادرًا ما يبرّر التعقيد التشغيلي التوفير. ابدأ بمزوّدي الاستدلال serverless (Together AI، Fireworks) كحل وسط قبل الالتزام باستئجار GPU خام.
تحسين التكلفة ليس مشروعًا لمرة واحدة. فبدون مراقبة مستمرة، تعود التكاليف إلى الارتفاع بسبب انحراف الـ prompt، والميزات الجديدة، وأنماط الاستخدام المتغيرة. تحتاج إلى رؤية لحظية لمكان ذهاب كل دولار.
| المقياس | الوصف | الهدف | الأداة |
|---|---|---|---|
| التكلفة لكل طلب | التكلفة الإجمالية (tokens الإدخال + الإخراج) لكل استدعاء API، مُفصَّلة حسب الميزة | Track trend, < budget | Custom logging / Helicone |
| التكلفة لكل جلسة مستخدم | التكلفة الإجمالية عبر جميع استدعاءات LLM في تفاعل مستخدم واحد | < $0.05 for most apps | LangSmith / custom |
| معدل إصابة التخزين المؤقت | نسبة الطلبات المُخدَّمة من التخزين المؤقت الدلالي | > 30% | Redis metrics / custom |
| كفاءة الـ tokens | نسبة tokens الإخراج المفيدة إلى إجمالي tokens المستهلَكة | > 60% | Custom analysis |
| توزيع توجيه النماذج | ما نسبة حركة المرور التي تذهب إلى كل طبقة نموذج | < 20% to large model | Custom dashboard |
| معدل الإنفاق اليومي | تكلفة يومية متحركة مع كشف الشذوذ عند الارتفاعات المفاجئة | < 2x daily average | Helicone / alerts |
ضع وسمًا لكل استدعاء LLM بالميزة التي يخدمها (مثل «chat»، «search»، «summarization»، «classification»). يتيح لك هذا الإجابة عن: «أي ميزة تكلّف أكثر؟» و«هل التكلفة لكل تفاعل مستخدم مستدامة؟». بدون ذلك، تحسّن بشكل أعمى. مرّر بيانات وصفية مثل {feature: "chat", user_tier: "free"} عبر ترويسات وكيل الـ LLM الخاص بك.
لا تحاول تنفيذ كل شيء دفعة واحدة. اتبع ترتيب الأولوية هذا استنادًا إلى نسبة الجهد إلى الأثر. يبني كل خطوة على ما قبلها.
أضِف التسجيل إلى كل استدعاء LLM. تتبّع tokens الداخلة/الخارجة، والنموذج المستخدَم، والميزة، والتكلفة، وزمن الاستجابة. لا يمكنك تحسين ما لا تقيسه.
راجِع واضغط كل system prompt. أزِل التكرار، واختصر التعليمات، واقطع أمثلة few-shot غير الضرورية. التوفير النموذجي: 20-40%.
أنشئ موجِّهًا أساسيًا. ابدأ بالتوجيه القائم على المهمة (قواعد بسيطة)، ثم تدرّج إلى مُصنِّف. وجّه أكثر من 70% من حركة المرور إلى أرخص نموذج قابل للتطبيق.
انشر تخزينًا مؤقتًا دلاليًا لنقاط النهاية ذات حركة المرور العالية. ابدأ بالمطابقة التامة، ثم أضِف تشابه الـ embedding. استهدف أكثر من 30% معدل إصابة.
حدّد الأحمال التي لا تحتاج إلى ردود فورية. انتقل إلى نقاط نهاية الدفعات لتوفير 50% على تلك الاستدعاءات.
انشر لوحات معلومات للتكلفة مع إسناد لكل ميزة. اضبط تنبيهات الشذوذ. اجعل تكلفة LLM مقياسًا تشغيليًا من الدرجة الأولى.
بمجرد توفر بيانات عن التكاليف والأحجام لكل مهمة، قيّم ما إذا كان الـ fine-tuning أو الاستضافة الذاتية منطقيًا اقتصاديًا لمهامك ذات الحجم الأعلى.
| التحسين | الجهد | الأثر | التوفير | متى تفعله |
|---|---|---|---|---|
| ضغط الـ prompt | Low | Medium | 20-40% | افعله دائمًا أولًا |
| توجيه النماذج | Medium | Very High | 60-80% | عند إنفاق > 500 دولار/شهر |
| التخزين المؤقت الدلالي | Medium | High | 30-60% | عندما تكون الاستعلامات متكررة |
| المعالجة على دفعات | Low | Medium | 50% على المؤهل للدفعات | عندما لا يكون زمن الاستجابة حرجًا |
| الـ fine-tuning | High | High | 70-90% | عند > 10 آلاف استدعاء/يوم على مهمة واحدة |
| الاستضافة الذاتية | Very High | Very High | 80-95% | عند > 10 آلاف دولار/شهر أو سيادة البيانات |
خط الأساس الابتدائي: 10000 دولار/شهر على واجهات LLM API.