الموارد/دليل المشهد

الذكاء الاصطناعي مفتوح المصدر

مشهد الذكاء الاصطناعي مفتوح المصدر 2026

الدليل المرجعي للذكاء الاصطناعي مفتوح المصدر في 2026. النماذج الرائدة وأطر التدريب وخوادم الاستدلال وتقنيات الضبط الدقيق وقواعد بيانات المتجهات وأدوات التنسيق — مع إرشادات عملية لاختيار الحزمة المناسبة لحالة الاستخدام الخاصة بك.

11 قسماً

45 دقيقة قراءة

أمثلة برمجية مضمّنة

March 2026

لماذا يهمّ الذكاء الاصطناعي مفتوح المصدر

في عام 2022، كان GPT-3.5 يُعتبر على نطاق واسع بعيد المنال بالنسبة لمجتمع المصادر المفتوحة. بدت الفجوة غير قابلة للتجاوز. وبحلول عام 2026 تغيّرت الصورة تغيّراً جذرياً: Llama 4 Maverick منافس للنماذج المغلقة الرائدة في معظم الاختبارات المرجعية، وDeepSeek-R1 يتحدى OpenAI o1 في الاستدلال الرياضي، وقد أنتج النظام البيئي مفتوح المصدر نماذج متخصصة تتفوق على نظيراتها المغلقة في مجالات ضيقة.

بالنسبة للشركات والمطورين، يعني هذا خياراً حقيقياً لأول مرة. لم تعد النماذج مفتوحة الأوزان خياراً احتياطياً؛ بل غالباً ما تكون الخيار الأول.

خصوصية البيانات

يعمل النموذج بالكامل على بنيتك التحتية. بياناتك لا تغادر بيئتك أبداً — أمر بالغ الأهمية للرعاية الصحية والقانون والتمويل وأي قطاع خاضع للتنظيم.

التكلفة عند التوسّع

يحلّ عنقود A100 واحد محل تكاليف API لكل token عند الحجم الكبير. عند أكثر من 10 ملايين طلب شهرياً، تحقق النماذج المستضافة ذاتياً عادةً خفضاً في التكلفة بمقدار 5 إلى 20×.

التخصيص

اضبط النموذج على مجالك ونبرتك وبياناتك. تمنحك واجهات API المغلقة هندسة المطالبات؛ بينما تمنحك الأوزان المفتوحة التحكم الكامل في النموذج.

التحدي الحقيقي الوحيد

العبء التشغيلي. استضافة نموذج ذاتياً تعني أنك تتحمّل توفير البنية التحتية وتحديثات النموذج والمراقبة وتخطيط السعة والاستجابة للحوادث. واجهات API المغلقة تُسند كل ذلك إلى جهة خارجية. السؤال ليس أبداً «هل المصدر المفتوح أفضل؟» — بل «هل لديك القدرة الهندسية لتشغيله بموثوقية؟»

حزمة الذكاء الاصطناعي مفتوح المصدر

graph TB
  A["Foundation Models (Llama 4, Mistral Large 3, Qwen 2.5, DeepSeek R2)"] --> B["Fine-tuned / Instruction-tuned Variants"]
  B --> C["Inference Server (vLLM / TGI / Ollama)"]
  C --> D["Orchestration Layer (LangChain, LlamaIndex, CrewAI)"]
  D --> E["Application (RAG, Agents, Chatbot, Code assistant)"]

النماذج الرائدة مفتوحة الأوزان

المشهد في مطلع 2026. درجات MMLU إرشادية — قِس دائماً على مهمتك المحددة قبل اختيار نموذج للإنتاج.

النموذج	الجهة	المعاملات	السياق	الترخيص	MMLU	الأنسب لـ
Llama 4 Maverick	Meta	400B (MoE)	1M	Llama 4	87.5	منافس في الطليعة، متعدد الوسائط
Llama 4 Scout	Meta	109B (MoE)	10M	Llama 4	79.6	سياق طويل، MoE فعّال
Llama 4 Behemoth	Meta	2T (MoE, preview)	256K	Llama 4	92.0	أقصى قدرة (نموذج معلّم)
Mistral Large 3	Mistral	123B	128K	MRL	84.0	المؤسسات، الامتثال الأوروبي
Mistral Small 3	Mistral	24B	128K	Apache 2.0	81.0	فعّال، ترخيص متساهل
DeepSeek-R1	DeepSeek	671B (MoE)	128K	MIT	90.8	الاستدلال، الرياضيات، الكود
DeepSeek-R1-Distill-70B	DeepSeek	70B	128K	MIT	86.7	استدلال فعّال
Qwen2.5 72B	Alibaba	72B	128K	Qwen License	86.6	متعدد اللغات، البرمجة
Qwen2.5-Coder 32B	Alibaba	32B	128K	Apache 2.0	—	توليد الكود
Gemma 2 27B	Google	27B	8K	Gemma	75.2	مدمج، مُحسَّن جيداً
Phi-4	Microsoft	14B	16K	MIT	84.8	صغير لكنه قادر بشكل مفاجئ

فهم التراخيص

Apache 2.0

الأكثر تساهلاً

الأكثر تساهلاً للاستخدام التجاري. يمنح حقوق براءات الاختراع، ويسمح بالتعديل وإعادة التوزيع. تفضّل Mistral هذا الترخيص لنماذجها الرائدة.

MIT

متساهل جداً

متساهل للغاية، بقيود ضئيلة. تُصدر DeepSeek تحت MIT، مما يجعل نماذجها من بين أكثر النماذج الرائدة ترخيصاً متحرراً.

Llama 4

مشروط

متساهل لمعظم الاستخدامات التجارية، لكنه يتطلب اتفاقية ترخيص للمنتجات/الخدمات التي تتجاوز 700 مليون مستخدم نشط شهرياً. الشروط نفسها كما في Llama 3.

Open Weight vs Open Source

مفهوم أساسي

تمييز مهم: «open weight» يعني أن أوزان النموذج متاحة، لكن قد لا يكون كود التدريب والبيانات كذلك. المصدر المفتوح الحقيقي (مثل Mistral) يُصدر كليهما.

النماذج المتخصصة

النماذج العامة ليست سوى البداية. أنتج النظام البيئي مفتوح المصدر نماذج متخصصة عالية القدرة تتفوق على نماذج عامة أكبر بكثير ضمن مجالها.

توليد الكود

Qwen2.5-Coder 32B— أفضل مبرمج مفتوح المصدر، منافس للنماذج الرائدة في HumanEval وSWE-bench

CodeLlama 70B— نموذج الكود المخصص من Meta، قوي في ملء الفراغات (infilling)

StarCoder2 15B— تعاون BigCode، دعم قوي لعدة لغات

DeepSeek-Coder-V2— بنية MoE، ممتاز في البرمجة التنافسية

الرياضيات والاستدلال

DeepSeek-R1 variants— استدلال بسلسلة التفكير، قوي في MATH وAIME

QwQ-32B— نموذج الاستدلال من Alibaba، يقترب من جودة o1

Numina-Math-72B— متخصص في رياضيات المسابقات، مضبوط على بيانات المسابقات

متعدد الوسائط (رؤية + نص)

LLaVA-1.6— نموذج رؤية-لغة خفيف وقابل للنشر على نطاق واسع

Qwen2-VL 72B— متعدد الوسائط مفتوح المصدر في طليعة التقنية، قوي في المستندات

Phi-3.5-vision— نموذج الرؤية المدمج من Microsoft، يعمل على أجهزة الحافة

Embeddings

nomic-embed-text-v1.5— تضمينات Matryoshka، بأبعاد قابلة للتعديل

mxbai-embed-large-v1— تضمينات إنجليزية عالية الجودة، Apache 2.0

BAAI/bge-m3— متعدد اللغات (100+ لغة)، dense + sparse + colbert

أدوات إعادة الترتيب (Re-Rankers)

BAAI/bge-reranker-v2-m3— أداة إعادة ترتيب cross-encoder متعددة اللغات

cross-encoder/ms-marco— معيار صناعي لإعادة ترتيب المقاطع في خطوط أنابيب RAG

ملاحظة للشركات الأوروبية

بالنسبة للشركات الأوروبية، تكون نماذج Mistral (مرخّصة Apache 2.0 لـ Mistral Small 3، مقرها في الاتحاد الأوروبي، مع توفّر خيارات استضافة داخل الاتحاد الأوروبي) غالباً الخيار الافتراضي لأسباب الامتثال وسيادة البيانات. يقدّم Mistral Small 3 وMistral Large 3 ترخيصاً متساهلاً أو ملائماً للاستخدام التجاري مع منشأ أوروبي واضح يلبّي العديد من متطلبات المشتريات وإقامة البيانات.

أطر التدريب

يهيمن إطاران: PyTorch وJAX. ما لم يكن لديك سبب محدد لاختيار JAX، ابدأ بـ PyTorch — فالنظام البيئي والأدوات ودعم المجتمع لا مثيل لها.

PyTorch

المعيار الفعلي

رسوم حسابية ديناميكية، وأسلوب تنفيذ أمري، وأكبر نظام بيئي بين جميع أطر تعلّم الآلة. تستخدمه Meta وMicrosoft وHugging Face والغالبية العظمى من مجتمع البحث.

أكبر نظام بيئي للنماذج والمكتبات

أسهل تصحيح للأخطاء (أصلي في Python)

أفضل مجتمع وتوثيق

FSDP أصلي للتدريب الموزّع

JAX / Flax

البحث ووحدات TPU

إطار تعلّم الآلة الوظيفي من Google مع ترجمة XLA. يتفوق على وحدات TPU، ويتيح تحويلات الدوال (grad وjit وvmap وpmap). تُعدّ Flax وEquinox أبرز مكتبات الشبكات العصبية المبنية فوقه.

أفضل أداء على وحدات TPU

ترجمة XLA في الوقت المناسب (JIT)

تحويلات وظيفية (jit وvmap وpmap)

مفضّل لدى أبحاث Google DeepMind

مكتبات التدريب الرئيسية

transformersby HuggingFace

حمّل أي نموذج من الـ Hub واضبطه دقيقاً وشاركه. المكتبة المركزية للنظام البيئي للذكاء الاصطناعي مفتوح المصدر.

trlby HuggingFace

حلقات تدريب الضبط الدقيق المُشرَف (SFT) وRLHF وDPO وGRPO. المكتبة المعيارية لتدريب المواءمة.

accelerateby HuggingFace

طبقة تجريد واحدة للتدريب متعدد وحدات GPU ومتعدد العُقد ومختلط الدقة. اكتب مرة واحدة، وشغّل في كل مكان.

deepspeedby Microsoft

مراحل مُحسِّن ZeRO 1/2/3، والتوازي ثلاثي الأبعاد (tensor وpipeline وdata). مطلوب لتدريب النماذج الكبيرة جداً.

FSDPby PyTorch native

Fully Sharded Data Parallel — إجابة PyTorch الأصلية على DeepSpeed ZeRO. تكامل أبسط وأداء مماثل.

مثال تدريب SFT (trl)

python

from transformers import AutoTokenizer, AutoModelForCausalLM
from trl import SFTTrainer, SFTConfig
from datasets import load_dataset
import torch

model = AutoModelForCausalLM.from_pretrained(
    "meta-llama/Llama-4-Scout-17B-16E-Instruct",
    torch_dtype=torch.bfloat16,
    device_map="auto",
)
tokenizer = AutoTokenizer.from_pretrained("meta-llama/Llama-4-Scout-17B-16E-Instruct")
dataset = load_dataset("HuggingFaceH4/ultrachat_200k", split="train_sft[:10000]")

trainer = SFTTrainer(
    model=model,
    args=SFTConfig(
        output_dir="./sft-output",
        num_train_epochs=3,
        per_device_train_batch_size=4,
    ),
    train_dataset=dataset,
    processing_class=tokenizer,
)
trainer.train()

الضبط الدقيق: LoRA وQLoRA

يتطلب الضبط الدقيق الكامل عدداً من وحدات GPU مماثلاً للتدريب المسبق — وهو أمر باهظ لمعظم الفرق. تتيح أساليب الضبط الدقيق الفعّال في المعاملات (PEFT) تكييف النماذج الرائدة على وحدة GPU واحدة.

LoRA: التكيّف منخفض الرتبة

بدلاً من تحديث جميع أوزان النموذج، يضيف LoRA مصفوفتي مُكيِّف صغيرتين A وB بجانب مصفوفات الأوزان المجمّدة. تُدرَّب المُكيِّفات وحدها، مما يقلّل المعاملات القابلة للتدريب بما يصل إلى 10000× لنموذج 7B.

W' = W + ΔW = W + AB

حيث A ∈ ℝ^(d×r)، B ∈ ℝ^(r×k)، r << min(d, k)

تتحكم الرتبة r في سعة المُكيِّفات. القيم النموذجية: 8–64. رتبة أعلى = سعة أكبر لكن معاملات أكثر. وعند الاستدلال، يمكن دمج المُكيِّفات في النموذج الأساسي بدون أي عبء إضافي.

QLoRA: LoRA المُكمَّم

يُكمِّم QLoRA أوزان النموذج الأساسي إلى 4-bit NF4 (Normal Float 4)، ثم يدرّب مُكيِّفات LoRA بدقة bfloat16. يتيح هذا ضبط نموذج 70B دقيقاً على وحدتي GPU من نوع A100 80GB فقط — وهو ما يتطلب عادةً عنقوداً من 16 وحدة GPU. يكون فقدان الجودة الناتج عن التكميم ضئيلاً عندما تُدرَّب المُكيِّفات بدقة أعلى.

تكوين LoRA (peft)

python

from peft import LoraConfig, get_peft_model

lora_config = LoraConfig(
    r=16,                    # rank — controls adapter capacity
    lora_alpha=32,           # scaling factor (alpha/r = effective LR)
    target_modules=["q_proj", "v_proj", "k_proj", "o_proj"],
    lora_dropout=0.05,
    bias="none",
    task_type="CAUSAL_LM",
)
model = get_peft_model(model, lora_config)
model.print_trainable_parameters()
# trainable params: 6,815,744 || all params: 8,036,802,560 || trainable%: 0.085

الطريقة	ذاكرة GPU (7B)	المعاملات القابلة للتدريب	الجودة	أفضل حالة استخدام
Full Fine-Tuning	~112 GB	100%	الأعلى	عندما تكون الجودة هي الأهم وتتوفر وحدات GPU بوفرة
LoRA	~16 GB	0.1–1%	شبه كاملة	تكييف الأسلوب/التنسيق، ضبط التعليمات
QLoRA	~6 GB	0.1–1%	95–98% من LoRA	ضبط دقيق بموارد محدودة، 70B على وحدتي GPU

DoRA: LoRA بتحليل الأوزان

نسخة أحدث تُحلّل مصفوفات الأوزان إلى مكوّنَي مقدار واتجاه، ثم تطبّق LoRA على مكوّن الاتجاه فقط. غالباً ما تحقق جودة أفضل من LoRA القياسي عند الرتبة نفسها. مدعومة في peft عبر use_dora=True.

الضبط الدقيق مقابل RAG: متى تستخدم كلاً منهما

استخدم الضبط الدقيق عند:

• تكييف أسلوب أو تنسيق المخرجات
• تعليم مفردات مجال متخصص
• الحاجة إلى شخصية أو نبرة متسقة
• اتباع تعليمات خاصة بمهمة معيّنة

استخدم RAG عند:

• ترسيخ الإجابات في مستندات محددة
• تحديث قاعدة المعرفة بشكل متكرر
• الحاجة إلى نسب المصادر
• تقليل الهلوسة في الاستعلامات الواقعية

خوادم الاستدلال

بمجرد حصولك على نموذج، تحتاج إلى تقديمه. يحدّد اختيار خادم الاستدلال إنتاجيتك وزمن الاستجابة والتعقيد التشغيلي. لأحمال الإنتاج، يُعدّ vLLM الخيار الأكثر اعتماداً على نطاق واسع.

الخادم	اللغة	الأنسب لـ	التكميم	البث	الترخيص
vLLM	Python	إنتاج عالي الإنتاجية	GPTQ, AWQ, GGUF	✓	Apache 2.0
TGI	Rust/Python	حزمة HuggingFace	bitsandbytes, GPTQ	✓	Apache 2.0
Ollama	Go	التطوير المحلي	GGUF (llama.cpp)	✓	MIT
llama.cpp	C++	الحافة/المعالج/Apple Silicon	GGUF all levels	✓	MIT
LMDeploy	Python	استدلال سريع + int4	W4A16, W8A8	✓	Apache 2.0
Triton Inference Server	C++	إنتاج متعدد الأطر	Backend dependent	✓	BSD

شرح PagedAttention في vLLM

يخصص الاستدلال التقليدي ذاكرة KV-cache في كتل متجاورة كبيرة، مما يهدر الذاكرة ويمنع تجميع (batching) الطلبات ذات أطوال التسلسل المختلفة. يتعامل PagedAttention مع KV-cache كصفحات ذاكرة افتراضية — تُخصَّص الكتل عند الطلب وتُشارَك بين الطلبات حيثما أمكن. يتيح هذا التجميع المستمر (انضمام الطلبات الجديدة إلى الدفعات الجارية) ويوفّر استغلالاً لوحدة GPU أفضل بمقدار 2 إلى 4× مقارنة بالتقديم الساذج.

تشغيل vLLM (واجهة API متوافقة مع OpenAI)

bash

# Start vLLM OpenAI-compatible server
python -m vllm.entrypoints.openai.api_server \
  --model meta-llama/Llama-4-Scout-17B-16E-Instruct \
  --dtype bfloat16 \
  --max-model-len 8192 \
  --port 8000

python

from openai import OpenAI

# vLLM exposes an OpenAI-compatible API
client = OpenAI(base_url="http://localhost:8000/v1", api_key="token")

response = client.chat.completions.create(
    model="meta-llama/Llama-4-Scout-17B-16E-Instruct",
    messages=[{"role": "user", "content": "Explain attention mechanisms"}],
    temperature=0.7,
    max_tokens=512,
)
print(response.choices[0].message.content)

الاستدلال المحلي

للتطوير أو البيئات المعزولة (air-gapped) أو الاستخدام الشخصي، تتيح لك أدوات الاستدلال المحلي تشغيل النماذج على عتاد المستهلك دون حساب سحابي. يُعدّ Ollama أسهل نقطة بداية.

Ollama

يدير تنزيلات النماذج وتكميم GGUF، ويعرض واجهة API محلية متوافقة مع OpenAI. لا حاجة لبيئة Python.

bash

# Install Ollama
curl -fsSL https://ollama.ai/install.sh | sh

# تنزيل النماذج وتشغيلها
ollama run llama4:scout         # ~23 GB GGUF Q4_K_M (MoE، فعّال)
ollama run mistral-small3       # ~14 GB GGUF Q4
ollama run deepseek-r1:70b      # ~40 GB
ollama run qwen2.5-coder:7b     # متخصص في الكود

# سرد النماذج المُنزَّلة
ollama list

مستويات تكميم GGUF

التنسيق	بِت/وزن	الجودة	موصى به لـ
Q2_K	2-bit	منخفضة	الحد الأدنى المطلق من ذاكرة RAM
Q4_K_M	4-bit	جيدة	أفضل توازن بين الجودة/الحجم — الإعداد الافتراضي الموصى به
Q5_K_M	5-bit	جيدة جداً	عندما تتوفر لديك ذاكرة RAM إضافية
Q6_K	6-bit	ممتازة	شبه خالية من الفقد، مع توفّر ذاكرة RAM كبيرة
Q8_0	8-bit	شبه خالية من الفقد	التطوير، الأنظمة عالية الذاكرة
F16	16-bit	خالية من الفقد	أقصى جودة، GPU خادم فقط

دليل العتاد

العتاد	النموذج الموصى به
MacBook M2/M3/M4 (16GB)	8B Q4_K_M
MacBook M2 Pro (32GB)	13-14B Q4_K_M
MacBook M3 Max (64GB)	70B Q4_K_M
RTX 3090 24GB	13B Q8_0 or 30B Q4
A100 80GB	70B FP16 or Llama 4 Scout Q4
2× A100 80GB	Llama 4 Maverick Q4 or 70B FP16

LM Studio

واجهة رسومية متعددة المنصات للنماذج المحلية. تصفّح وتنزيل من HuggingFace، خادم محلي متوافق مع OpenAI، ومراقبة استخدام العتاد. رائعة للمستخدمين غير المطورين.

Jan.ai

تطبيق LLM لسطح المكتب يضع الخصوصية أولاً. يعمل دون اتصال بنسبة 100%، مفتوح المصدر (AGPL)، يدعم النماذج المتوافقة مع Ollama. مصمم للمستخدمين الذين يريدون انعدام القياس عن بُعد.

قواعد بيانات المتجهات

قواعد بيانات المتجهات هي العمود الفقري لأنظمة RAG. يعتمد الاختيار الصحيح على الحجم والبنية التحتية القائمة وما إذا كنت بحاجة إلى تصفية البيانات الوصفية إلى جانب البحث المتجهي.

قاعدة البيانات	النوع	الحجم	الترخيص	الميزة المميزة
pgvector	PostgreSQL extension	متوسط	Apache 2.0	SQL + متجهات، دون بنية تحتية جديدة
Chroma	Embedded/server	صغير-متوسط	Apache 2.0	أبسط واجهة API، رائعة للنماذج الأولية
Qdrant	Rust server	كبير	Apache 2.0	تصفية الحمولة (payload)، سريعة
Weaviate	Go server	كبير	BSD	بحث هجين، GraphQL
Milvus	C++ server	كبير جداً	Apache 2.0	حجم بالمليارات، سحابي أصيل
LanceDB	Embedded	متوسط	Apache 2.0	Arrow أصيل، بدون خادم

ابدأ بـ pgvector

إذا كنت تشغّل PostgreSQL بالفعل، فإن pgvector يضيف البحث المتجهي دون أي بنية تحتية جديدة. يتعامل بسهولة مع ملايين المتجهات باستخدام فهارس IVFFlat أو HNSW — أكثر من كافٍ لمعظم أنظمة RAG في الإنتاج.

بداية سريعة مع pgvector

sql

-- Enable the extension
CREATE EXTENSION IF NOT EXISTS vector;

-- Create table with vector column
CREATE TABLE documents (
    id        bigserial PRIMARY KEY,
    content   text,
    embedding vector(1536)    -- dimension matches your embedding model
);

-- Create approximate nearest neighbor index (IVFFlat)
CREATE INDEX ON documents USING ivfflat (embedding vector_cosine_ops)
  WITH (lists = 100);

-- Alternatively, HNSW (better recall, slower build)
-- CREATE INDEX ON documents USING hnsw (embedding vector_cosine_ops);

-- Semantic similarity query
SELECT content, 1 - (embedding <=> '[0.1, 0.2, ...]'::vector) AS similarity
FROM documents
ORDER BY embedding <=> '[0.1, 0.2, ...]'::vector
LIMIT 5;

التنسيق والوكلاء

تربط أطر التنسيق نموذجك بالأدوات والذاكرة وخطوط الأنابيب متعددة الخطوات. المشهد مزدحم — اختر بناءً على حالة استخدامك، لا على نجوم GitHub وحدها.

الإطار	نجوم GitHub	الأنسب لـ	مستوى التجريد
LangChain	90k+	خطوط أنابيب عامة الغرض	مرتفع
LangGraph	10k+	سير عمل وكلاء ذو حالة	متوسط
LlamaIndex	35k+	تطبيقات كثيفة الاعتماد على RAG	متوسط
CrewAI	20k+	تعاون متعدد الوكلاء	مرتفع
AutoGen	30k+	وكلاء حواريون متعددون	متوسط
DSPy	20k+	تحسين المطالبات	منخفض-متوسط
Semantic Kernel	20k+	تكامل .NET/المؤسسات	مرتفع
Haystack	15k+	خطوط أنابيب NLP، مفتوحة	متوسط

DSPy: تحسين المطالبات

يتبنى DSPy فلسفة مختلفة عن الأطر الأخرى: بدلاً من صياغة قوالب المطالبات يدوياً، تحدّد توقيع مهمة (المدخلات والمخرجات والقيود) وبضعة أمثلة موسومة، ثم يحسّن DSPy المطالبات تلقائياً باستخدام خوارزميات مثل OPRO أو BootstrapFewShot. وهذا قوي بشكل خاص مع النماذج مفتوحة المصدر الأصغر الحساسة لصياغة المطالبات — دع المُحسِّن يجد ما ينجح بدلاً من التكرار يدوياً.

اختيار few-shot تلقائيضبط تعليمات المطالبةسلاسل استدلال متعددة القفزاتيعمل مع أي LLM

أدوات التقييم

التقييم هو المكان الذي تفشل فيه معظم مشاريع الذكاء الاصطناعي مفتوحة المصدر في الإنتاج. قبل نشر أي نموذج، حدّد معايير جودة قابلة للقياس وأرسِ خط أساس.

lm-evaluation-harness

by EleutherAI

المُشغِّل المعياري للاختبارات المرجعية للنماذج مفتوحة المصدر. يشغّل MMLU وHellaSwag وARC وWinoGrande و60+ اختباراً مرجعياً آخر. يُستخدم لإنشاء درجات Open LLM Leaderboard.

OpenCompass

by Shanghai AI Lab

منصة تقييم شاملة بأكثر من 100 اختبار مرجعي، مع تغطية قوية بشكل خاص للاختبارات المرجعية باللغة الصينية ونماذج اللغات الآسيوية.

Ragas

by Explodinggradients

إطار تقييم خاص بـ RAG. يقيس استدعاء السياق والإخلاص وصلة الإجابة ودقة السياق باستخدام منهجية LLM-كحَكَم.

DeepEval

by Confident AI

إطار تقييم بأسلوب اختبارات الوحدة. اكتب تأكيدات التقييم بلغة Python، وادمجها في CI/CD، وتتبّع المقاييس عبر إصدارات النماذج.

Evals

by OpenAI

أصبح تنسيق التقييم الخاص بـ OpenAI معياراً صناعياً. تتبنى العديد من المشاريع مفتوحة المصدر بنية التقييم نفسها لقابلية التشغيل البيني.

HELMET

by Princeton

تقييم شامل لنماذج اللغة ذات السياق الطويل. حاسم للنماذج التي تدّعي نوافذ سياق كبيرة — يختبر الاستدعاء والاستدلال الفعليين في السياق الطويل.

مثال تقييم RAG باستخدام Ragas

python

from ragas import evaluate
from ragas.metrics import faithfulness, answer_relevancy, context_recall
from datasets import Dataset

eval_data = Dataset.from_dict({
    "question": ["What is LoRA?"],
    "answer": ["LoRA adds low-rank adapter matrices to frozen weights..."],
    "contexts": [["Low-Rank Adaptation adds trainable matrices A and B..."]],
    "ground_truth": ["LoRA is a parameter-efficient fine-tuning method..."],
})

result = evaluate(
    eval_data,
    metrics=[faithfulness, answer_relevancy, context_recall]
)
print(result)
# {'faithfulness': 0.96, 'answer_relevancy': 0.89, 'context_recall': 0.92}

اختيار حزمتك

لا توجد إجابة صحيحة عالمية. اعمل على هذه الأسئلة بالترتيب — كل إجابة تضيّق خياراتك بشكل كبير.

1. قيود الخصوصية؟

إذا كانت البيانات لا يمكن أن تغادر بنيتك التحتية، فأنت على مسار المصدر المفتوح حصراً بشكل افتراضي. هذا يستبعد فوراً أي خدمة API مُدارة. حدّد حجم بنيتك التحتية أولاً.

2. ما هو حجم طلباتك؟

< 1K طلب/يوم: Ollama على جهاز واحد يكفي. 1K–100K/يوم: vLLM على عقدة A100 واحدة. > 100K/يوم: عنقود vLLM أو TGI خلف موازِن تحميل. عند الأحجام الكبيرة جداً، توفيرات التكلفة مقارنة بالوصول عبر API تسدّد ثمن البنية التحتية خلال أسابيع.

3. ميزانية ذاكرة GPU؟

دليل تقريبي: نموذج 7B ≈ 14 GB FP16 (أو 5–6 GB Q4)؛ 13B ≈ 26 GB؛ 70B ≈ 140 GB FP16 (أو 40 GB Q4)؛ 405B ≈ 810 GB FP16 (أو 200 GB Q4). أضف 20% عبئاً إضافياً لـ KV-cache. يحتاج الضبط الدقيق QLoRA إلى ~1.5× ذاكرة الاستدلال.

4. ما هي مهمتك الأساسية؟

محادثة عامة → Llama 4 Scout. توليد الكود → Qwen2.5-Coder. الاستدلال/الرياضيات → DeepSeek-R1. متعدد اللغات → Qwen2.5 72B. أسئلة وأجوبة المستندات → Mistral Small 3 + pgvector. لكل مجال فائز واضح — لا تستخدم نموذجاً عاماً عندما يوجد متخصص.

5. هل تحتاج إلى ضبط دقيق؟

تغييرات الأسلوب والتنسيق → LoRA (سريع، رخيص). المعرفة الخاصة بالمجال → QLoRA + SFT على مجموعتك النصية. تحسين الاستدلال → GRPO أو DPO على بيانات التفضيل. إذا كان سلوك النموذج الأساسي قريباً بما يكفي مع المطالبات، فتجاوز الضبط الدقيق تماماً.

حزم البداية الموصى بها

حالة الاستخدام	النموذج	التقديم	التنسيق	قاعدة بيانات المتجهات
روبوت محادثة داخلي	Llama 4 Scout	vLLM	LangChain	pgvector
مساعد برمجة	Qwen2.5-Coder 7B	Ollama	Claude Code	—
أسئلة وأجوبة المستندات	Mistral Small 3	vLLM	LlamaIndex	Qdrant
سير عمل متعدد الوكلاء	Llama 4 Scout	vLLM	LangGraph	pgvector
مهام الاستدلال	DeepSeek-R1-Distill 7B	Ollama/vLLM	Custom	—
حرج للخصوصية	Llama 4 Scout	Ollama (air-gapped)	Custom	Chroma

هل تحتاج إلى مساعدة في اختيار ونشر حزمة الذكاء الاصطناعي مفتوحة المصدر الخاصة بك؟

يتطلب اختيار النموذج والبنية التحتية المناسبين لحالة استخدامك الموازنة بين الأداء والتكلفة والامتثال والنضج التشغيلي. نساعد الشركات على التنقّل في هذه القرارات وتنفيذ أنظمة ذكاء اصطناعي مفتوحة المصدر موثوقة وخاصة وفعّالة من حيث التكلفة على نطاق واسع.

موارد ذات صلة

دليل تنفيذ RAG في الإنتاج

ابنِ أنظمة التوليد المعزّز بالاسترجاع التي تعمل في الإنتاج مع قواعد بيانات المتجهات مفتوحة المصدر

دليل تنفيذ وكلاء الذكاء الاصطناعي

ابنِ وكلاء إنتاج باستخدام نماذج LLM مفتوحة المصدر، من البنية إلى النشر

دليل تحسين تكلفة LLM

قلّل تكاليف الاستدلال بنسبة 70–90% عبر اختيار النماذج والتكميم واستراتيجيات التخزين المؤقت

الموارد/دليل المشهد

الذكاء الاصطناعي مفتوح المصدر

مشهد الذكاء الاصطناعي مفتوح المصدر 2026

11 قسماً

45 دقيقة قراءة

أمثلة برمجية مضمّنة

March 2026

لماذا يهمّ الذكاء الاصطناعي مفتوح المصدر

خصوصية البيانات

التكلفة عند التوسّع

التخصيص

التحدي الحقيقي الوحيد

حزمة الذكاء الاصطناعي مفتوح المصدر

graph TB
  A["Foundation Models (Llama 4, Mistral Large 3, Qwen 2.5, DeepSeek R2)"] --> B["Fine-tuned / Instruction-tuned Variants"]
  B --> C["Inference Server (vLLM / TGI / Ollama)"]
  C --> D["Orchestration Layer (LangChain, LlamaIndex, CrewAI)"]
  D --> E["Application (RAG, Agents, Chatbot, Code assistant)"]

النماذج الرائدة مفتوحة الأوزان

المشهد في مطلع 2026. درجات MMLU إرشادية — قِس دائماً على مهمتك المحددة قبل اختيار نموذج للإنتاج.

النموذج	الجهة	المعاملات	السياق	الترخيص	MMLU	الأنسب لـ
Llama 4 Maverick	Meta	400B (MoE)	1M	Llama 4	87.5	منافس في الطليعة، متعدد الوسائط
Llama 4 Scout	Meta	109B (MoE)	10M	Llama 4	79.6	سياق طويل، MoE فعّال
Llama 4 Behemoth	Meta	2T (MoE, preview)	256K	Llama 4	92.0	أقصى قدرة (نموذج معلّم)
Mistral Large 3	Mistral	123B	128K	MRL	84.0	المؤسسات، الامتثال الأوروبي
Mistral Small 3	Mistral	24B	128K	Apache 2.0	81.0	فعّال، ترخيص متساهل
DeepSeek-R1	DeepSeek	671B (MoE)	128K	MIT	90.8	الاستدلال، الرياضيات، الكود
DeepSeek-R1-Distill-70B	DeepSeek	70B	128K	MIT	86.7	استدلال فعّال
Qwen2.5 72B	Alibaba	72B	128K	Qwen License	86.6	متعدد اللغات، البرمجة
Qwen2.5-Coder 32B	Alibaba	32B	128K	Apache 2.0	—	توليد الكود
Gemma 2 27B	Google	27B	8K	Gemma	75.2	مدمج، مُحسَّن جيداً
Phi-4	Microsoft	14B	16K	MIT	84.8	صغير لكنه قادر بشكل مفاجئ

فهم التراخيص

Apache 2.0

الأكثر تساهلاً

MIT

متساهل جداً

متساهل للغاية، بقيود ضئيلة. تُصدر DeepSeek تحت MIT، مما يجعل نماذجها من بين أكثر النماذج الرائدة ترخيصاً متحرراً.

Llama 4

مشروط

Open Weight vs Open Source

مفهوم أساسي

النماذج المتخصصة

توليد الكود

Qwen2.5-Coder 32B— أفضل مبرمج مفتوح المصدر، منافس للنماذج الرائدة في HumanEval وSWE-bench

CodeLlama 70B— نموذج الكود المخصص من Meta، قوي في ملء الفراغات (infilling)

StarCoder2 15B— تعاون BigCode، دعم قوي لعدة لغات

DeepSeek-Coder-V2— بنية MoE، ممتاز في البرمجة التنافسية

الرياضيات والاستدلال

DeepSeek-R1 variants— استدلال بسلسلة التفكير، قوي في MATH وAIME

QwQ-32B— نموذج الاستدلال من Alibaba، يقترب من جودة o1

Numina-Math-72B— متخصص في رياضيات المسابقات، مضبوط على بيانات المسابقات

متعدد الوسائط (رؤية + نص)

LLaVA-1.6— نموذج رؤية-لغة خفيف وقابل للنشر على نطاق واسع

Qwen2-VL 72B— متعدد الوسائط مفتوح المصدر في طليعة التقنية، قوي في المستندات

Phi-3.5-vision— نموذج الرؤية المدمج من Microsoft، يعمل على أجهزة الحافة

Embeddings

nomic-embed-text-v1.5— تضمينات Matryoshka، بأبعاد قابلة للتعديل

mxbai-embed-large-v1— تضمينات إنجليزية عالية الجودة، Apache 2.0

BAAI/bge-m3— متعدد اللغات (100+ لغة)، dense + sparse + colbert

أدوات إعادة الترتيب (Re-Rankers)

BAAI/bge-reranker-v2-m3— أداة إعادة ترتيب cross-encoder متعددة اللغات

cross-encoder/ms-marco— معيار صناعي لإعادة ترتيب المقاطع في خطوط أنابيب RAG

ملاحظة للشركات الأوروبية

أطر التدريب

PyTorch

المعيار الفعلي

أكبر نظام بيئي للنماذج والمكتبات

أسهل تصحيح للأخطاء (أصلي في Python)

أفضل مجتمع وتوثيق

FSDP أصلي للتدريب الموزّع

JAX / Flax

البحث ووحدات TPU

أفضل أداء على وحدات TPU

ترجمة XLA في الوقت المناسب (JIT)

تحويلات وظيفية (jit وvmap وpmap)

مفضّل لدى أبحاث Google DeepMind

مكتبات التدريب الرئيسية

transformersby HuggingFace

حمّل أي نموذج من الـ Hub واضبطه دقيقاً وشاركه. المكتبة المركزية للنظام البيئي للذكاء الاصطناعي مفتوح المصدر.

trlby HuggingFace

حلقات تدريب الضبط الدقيق المُشرَف (SFT) وRLHF وDPO وGRPO. المكتبة المعيارية لتدريب المواءمة.

accelerateby HuggingFace

طبقة تجريد واحدة للتدريب متعدد وحدات GPU ومتعدد العُقد ومختلط الدقة. اكتب مرة واحدة، وشغّل في كل مكان.

deepspeedby Microsoft

مراحل مُحسِّن ZeRO 1/2/3، والتوازي ثلاثي الأبعاد (tensor وpipeline وdata). مطلوب لتدريب النماذج الكبيرة جداً.

FSDPby PyTorch native

Fully Sharded Data Parallel — إجابة PyTorch الأصلية على DeepSpeed ZeRO. تكامل أبسط وأداء مماثل.

مثال تدريب SFT (trl)

python

from transformers import AutoTokenizer, AutoModelForCausalLM
from trl import SFTTrainer, SFTConfig
from datasets import load_dataset
import torch

model = AutoModelForCausalLM.from_pretrained(
    "meta-llama/Llama-4-Scout-17B-16E-Instruct",
    torch_dtype=torch.bfloat16,
    device_map="auto",
)
tokenizer = AutoTokenizer.from_pretrained("meta-llama/Llama-4-Scout-17B-16E-Instruct")
dataset = load_dataset("HuggingFaceH4/ultrachat_200k", split="train_sft[:10000]")

trainer = SFTTrainer(
    model=model,
    args=SFTConfig(
        output_dir="./sft-output",
        num_train_epochs=3,
        per_device_train_batch_size=4,
    ),
    train_dataset=dataset,
    processing_class=tokenizer,
)
trainer.train()

الضبط الدقيق: LoRA وQLoRA

LoRA: التكيّف منخفض الرتبة

W' = W + ΔW = W + AB

حيث A ∈ ℝ^(d×r)، B ∈ ℝ^(r×k)، r << min(d, k)

QLoRA: LoRA المُكمَّم

تكوين LoRA (peft)

python

from peft import LoraConfig, get_peft_model

lora_config = LoraConfig(
    r=16,                    # rank — controls adapter capacity
    lora_alpha=32,           # scaling factor (alpha/r = effective LR)
    target_modules=["q_proj", "v_proj", "k_proj", "o_proj"],
    lora_dropout=0.05,
    bias="none",
    task_type="CAUSAL_LM",
)
model = get_peft_model(model, lora_config)
model.print_trainable_parameters()
# trainable params: 6,815,744 || all params: 8,036,802,560 || trainable%: 0.085

الطريقة	ذاكرة GPU (7B)	المعاملات القابلة للتدريب	الجودة	أفضل حالة استخدام
Full Fine-Tuning	~112 GB	100%	الأعلى	عندما تكون الجودة هي الأهم وتتوفر وحدات GPU بوفرة
LoRA	~16 GB	0.1–1%	شبه كاملة	تكييف الأسلوب/التنسيق، ضبط التعليمات
QLoRA	~6 GB	0.1–1%	95–98% من LoRA	ضبط دقيق بموارد محدودة، 70B على وحدتي GPU

DoRA: LoRA بتحليل الأوزان

الضبط الدقيق مقابل RAG: متى تستخدم كلاً منهما

استخدم الضبط الدقيق عند:

• تكييف أسلوب أو تنسيق المخرجات
• تعليم مفردات مجال متخصص
• الحاجة إلى شخصية أو نبرة متسقة
• اتباع تعليمات خاصة بمهمة معيّنة

استخدم RAG عند:

• ترسيخ الإجابات في مستندات محددة
• تحديث قاعدة المعرفة بشكل متكرر
• الحاجة إلى نسب المصادر
• تقليل الهلوسة في الاستعلامات الواقعية

خوادم الاستدلال

الخادم	اللغة	الأنسب لـ	التكميم	البث	الترخيص
vLLM	Python	إنتاج عالي الإنتاجية	GPTQ, AWQ, GGUF	✓	Apache 2.0
TGI	Rust/Python	حزمة HuggingFace	bitsandbytes, GPTQ	✓	Apache 2.0
Ollama	Go	التطوير المحلي	GGUF (llama.cpp)	✓	MIT
llama.cpp	C++	الحافة/المعالج/Apple Silicon	GGUF all levels	✓	MIT
LMDeploy	Python	استدلال سريع + int4	W4A16, W8A8	✓	Apache 2.0
Triton Inference Server	C++	إنتاج متعدد الأطر	Backend dependent	✓	BSD

شرح PagedAttention في vLLM

تشغيل vLLM (واجهة API متوافقة مع OpenAI)

bash

# Start vLLM OpenAI-compatible server
python -m vllm.entrypoints.openai.api_server \
  --model meta-llama/Llama-4-Scout-17B-16E-Instruct \
  --dtype bfloat16 \
  --max-model-len 8192 \
  --port 8000

python

from openai import OpenAI

# vLLM exposes an OpenAI-compatible API
client = OpenAI(base_url="http://localhost:8000/v1", api_key="token")

response = client.chat.completions.create(
    model="meta-llama/Llama-4-Scout-17B-16E-Instruct",
    messages=[{"role": "user", "content": "Explain attention mechanisms"}],
    temperature=0.7,
    max_tokens=512,
)
print(response.choices[0].message.content)

الاستدلال المحلي

Ollama

يدير تنزيلات النماذج وتكميم GGUF، ويعرض واجهة API محلية متوافقة مع OpenAI. لا حاجة لبيئة Python.

bash

# Install Ollama
curl -fsSL https://ollama.ai/install.sh | sh

# تنزيل النماذج وتشغيلها
ollama run llama4:scout         # ~23 GB GGUF Q4_K_M (MoE، فعّال)
ollama run mistral-small3       # ~14 GB GGUF Q4
ollama run deepseek-r1:70b      # ~40 GB
ollama run qwen2.5-coder:7b     # متخصص في الكود

# سرد النماذج المُنزَّلة
ollama list

مستويات تكميم GGUF

التنسيق	بِت/وزن	الجودة	موصى به لـ
Q2_K	2-bit	منخفضة	الحد الأدنى المطلق من ذاكرة RAM
Q4_K_M	4-bit	جيدة	أفضل توازن بين الجودة/الحجم — الإعداد الافتراضي الموصى به
Q5_K_M	5-bit	جيدة جداً	عندما تتوفر لديك ذاكرة RAM إضافية
Q6_K	6-bit	ممتازة	شبه خالية من الفقد، مع توفّر ذاكرة RAM كبيرة
Q8_0	8-bit	شبه خالية من الفقد	التطوير، الأنظمة عالية الذاكرة
F16	16-bit	خالية من الفقد	أقصى جودة، GPU خادم فقط

دليل العتاد

العتاد	النموذج الموصى به
MacBook M2/M3/M4 (16GB)	8B Q4_K_M
MacBook M2 Pro (32GB)	13-14B Q4_K_M
MacBook M3 Max (64GB)	70B Q4_K_M
RTX 3090 24GB	13B Q8_0 or 30B Q4
A100 80GB	70B FP16 or Llama 4 Scout Q4
2× A100 80GB	Llama 4 Maverick Q4 or 70B FP16

LM Studio

Jan.ai

قواعد بيانات المتجهات

قاعدة البيانات	النوع	الحجم	الترخيص	الميزة المميزة
pgvector	PostgreSQL extension	متوسط	Apache 2.0	SQL + متجهات، دون بنية تحتية جديدة
Chroma	Embedded/server	صغير-متوسط	Apache 2.0	أبسط واجهة API، رائعة للنماذج الأولية
Qdrant	Rust server	كبير	Apache 2.0	تصفية الحمولة (payload)، سريعة
Weaviate	Go server	كبير	BSD	بحث هجين، GraphQL
Milvus	C++ server	كبير جداً	Apache 2.0	حجم بالمليارات، سحابي أصيل
LanceDB	Embedded	متوسط	Apache 2.0	Arrow أصيل، بدون خادم

ابدأ بـ pgvector

بداية سريعة مع pgvector

sql

-- Enable the extension
CREATE EXTENSION IF NOT EXISTS vector;

-- Create table with vector column
CREATE TABLE documents (
    id        bigserial PRIMARY KEY,
    content   text,
    embedding vector(1536)    -- dimension matches your embedding model
);

-- Create approximate nearest neighbor index (IVFFlat)
CREATE INDEX ON documents USING ivfflat (embedding vector_cosine_ops)
  WITH (lists = 100);

-- Alternatively, HNSW (better recall, slower build)
-- CREATE INDEX ON documents USING hnsw (embedding vector_cosine_ops);

-- Semantic similarity query
SELECT content, 1 - (embedding <=> '[0.1, 0.2, ...]'::vector) AS similarity
FROM documents
ORDER BY embedding <=> '[0.1, 0.2, ...]'::vector
LIMIT 5;

التنسيق والوكلاء

الإطار	نجوم GitHub	الأنسب لـ	مستوى التجريد
LangChain	90k+	خطوط أنابيب عامة الغرض	مرتفع
LangGraph	10k+	سير عمل وكلاء ذو حالة	متوسط
LlamaIndex	35k+	تطبيقات كثيفة الاعتماد على RAG	متوسط
CrewAI	20k+	تعاون متعدد الوكلاء	مرتفع
AutoGen	30k+	وكلاء حواريون متعددون	متوسط
DSPy	20k+	تحسين المطالبات	منخفض-متوسط
Semantic Kernel	20k+	تكامل .NET/المؤسسات	مرتفع
Haystack	15k+	خطوط أنابيب NLP، مفتوحة	متوسط

DSPy: تحسين المطالبات

اختيار few-shot تلقائيضبط تعليمات المطالبةسلاسل استدلال متعددة القفزاتيعمل مع أي LLM

أدوات التقييم

lm-evaluation-harness

by EleutherAI

OpenCompass

by Shanghai AI Lab

Ragas

by Explodinggradients

إطار تقييم خاص بـ RAG. يقيس استدعاء السياق والإخلاص وصلة الإجابة ودقة السياق باستخدام منهجية LLM-كحَكَم.

DeepEval

by Confident AI

Evals

by OpenAI

HELMET

by Princeton

مثال تقييم RAG باستخدام Ragas

python

from ragas import evaluate
from ragas.metrics import faithfulness, answer_relevancy, context_recall
from datasets import Dataset

eval_data = Dataset.from_dict({
    "question": ["What is LoRA?"],
    "answer": ["LoRA adds low-rank adapter matrices to frozen weights..."],
    "contexts": [["Low-Rank Adaptation adds trainable matrices A and B..."]],
    "ground_truth": ["LoRA is a parameter-efficient fine-tuning method..."],
})

result = evaluate(
    eval_data,
    metrics=[faithfulness, answer_relevancy, context_recall]
)
print(result)
# {'faithfulness': 0.96, 'answer_relevancy': 0.89, 'context_recall': 0.92}

اختيار حزمتك

لا توجد إجابة صحيحة عالمية. اعمل على هذه الأسئلة بالترتيب — كل إجابة تضيّق خياراتك بشكل كبير.

1. قيود الخصوصية؟

2. ما هو حجم طلباتك؟

3. ميزانية ذاكرة GPU؟

4. ما هي مهمتك الأساسية؟

5. هل تحتاج إلى ضبط دقيق؟

حزم البداية الموصى بها

حالة الاستخدام	النموذج	التقديم	التنسيق	قاعدة بيانات المتجهات
روبوت محادثة داخلي	Llama 4 Scout	vLLM	LangChain	pgvector
مساعد برمجة	Qwen2.5-Coder 7B	Ollama	Claude Code	—
أسئلة وأجوبة المستندات	Mistral Small 3	vLLM	LlamaIndex	Qdrant
سير عمل متعدد الوكلاء	Llama 4 Scout	vLLM	LangGraph	pgvector
مهام الاستدلال	DeepSeek-R1-Distill 7B	Ollama/vLLM	Custom	—
حرج للخصوصية	Llama 4 Scout	Ollama (air-gapped)	Custom	Chroma

هل تحتاج إلى مساعدة في اختيار ونشر حزمة الذكاء الاصطناعي مفتوحة المصدر الخاصة بك؟

موارد ذات صلة

دليل تنفيذ RAG في الإنتاج

ابنِ أنظمة التوليد المعزّز بالاسترجاع التي تعمل في الإنتاج مع قواعد بيانات المتجهات مفتوحة المصدر

دليل تنفيذ وكلاء الذكاء الاصطناعي

ابنِ وكلاء إنتاج باستخدام نماذج LLM مفتوحة المصدر، من البنية إلى النشر

دليل تحسين تكلفة LLM

قلّل تكاليف الاستدلال بنسبة 70–90% عبر اختيار النماذج والتكميم واستراتيجيات التخزين المؤقت

Expert Guide: Starcoder2 & LoRA Target Modules 2024 | Hyperion Consulting