الدليل المرجعي للذكاء الاصطناعي مفتوح المصدر في 2026. النماذج الرائدة وأطر التدريب وخوادم الاستدلال وتقنيات الضبط الدقيق وقواعد بيانات المتجهات وأدوات التنسيق — مع إرشادات عملية لاختيار الحزمة المناسبة لحالة الاستخدام الخاصة بك.
في عام 2022، كان GPT-3.5 يُعتبر على نطاق واسع بعيد المنال بالنسبة لمجتمع المصادر المفتوحة. بدت الفجوة غير قابلة للتجاوز. وبحلول عام 2026 تغيّرت الصورة تغيّراً جذرياً: Llama 4 Maverick منافس للنماذج المغلقة الرائدة في معظم الاختبارات المرجعية، وDeepSeek-R1 يتحدى OpenAI o1 في الاستدلال الرياضي، وقد أنتج النظام البيئي مفتوح المصدر نماذج متخصصة تتفوق على نظيراتها المغلقة في مجالات ضيقة.
بالنسبة للشركات والمطورين، يعني هذا خياراً حقيقياً لأول مرة. لم تعد النماذج مفتوحة الأوزان خياراً احتياطياً؛ بل غالباً ما تكون الخيار الأول.
يعمل النموذج بالكامل على بنيتك التحتية. بياناتك لا تغادر بيئتك أبداً — أمر بالغ الأهمية للرعاية الصحية والقانون والتمويل وأي قطاع خاضع للتنظيم.
يحلّ عنقود A100 واحد محل تكاليف API لكل token عند الحجم الكبير. عند أكثر من 10 ملايين طلب شهرياً، تحقق النماذج المستضافة ذاتياً عادةً خفضاً في التكلفة بمقدار 5 إلى 20×.
اضبط النموذج على مجالك ونبرتك وبياناتك. تمنحك واجهات API المغلقة هندسة المطالبات؛ بينما تمنحك الأوزان المفتوحة التحكم الكامل في النموذج.
العبء التشغيلي. استضافة نموذج ذاتياً تعني أنك تتحمّل توفير البنية التحتية وتحديثات النموذج والمراقبة وتخطيط السعة والاستجابة للحوادث. واجهات API المغلقة تُسند كل ذلك إلى جهة خارجية. السؤال ليس أبداً «هل المصدر المفتوح أفضل؟» — بل «هل لديك القدرة الهندسية لتشغيله بموثوقية؟»
graph TB A["Foundation Models (Llama 4, Mistral Large 3, Qwen 2.5, DeepSeek R2)"] --> B["Fine-tuned / Instruction-tuned Variants"] B --> C["Inference Server (vLLM / TGI / Ollama)"] C --> D["Orchestration Layer (LangChain, LlamaIndex, CrewAI)"] D --> E["Application (RAG, Agents, Chatbot, Code assistant)"]
المشهد في مطلع 2026. درجات MMLU إرشادية — قِس دائماً على مهمتك المحددة قبل اختيار نموذج للإنتاج.
| النموذج | الجهة | المعاملات | السياق | الترخيص | MMLU | الأنسب لـ |
|---|---|---|---|---|---|---|
| Llama 4 Maverick | Meta | 400B (MoE) | 1M | Llama 4 | 87.5 | منافس في الطليعة، متعدد الوسائط |
| Llama 4 Scout | Meta | 109B (MoE) | 10M | Llama 4 | 79.6 | سياق طويل، MoE فعّال |
| Llama 4 Behemoth | Meta | 2T (MoE, preview) | 256K | Llama 4 | 92.0 | أقصى قدرة (نموذج معلّم) |
| Mistral Large 3 | Mistral | 123B | 128K | MRL | 84.0 | المؤسسات، الامتثال الأوروبي |
| Mistral Small 3 | Mistral | 24B | 128K | Apache 2.0 | 81.0 | فعّال، ترخيص متساهل |
| DeepSeek-R1 | DeepSeek | 671B (MoE) | 128K | MIT | 90.8 | الاستدلال، الرياضيات، الكود |
| DeepSeek-R1-Distill-70B | DeepSeek | 70B | 128K | MIT | 86.7 | استدلال فعّال |
| Qwen2.5 72B | Alibaba | 72B | 128K | Qwen License | 86.6 | متعدد اللغات، البرمجة |
| Qwen2.5-Coder 32B | Alibaba | 32B | 128K | Apache 2.0 | — | توليد الكود |
| Gemma 2 27B | 27B | 8K | Gemma | 75.2 | مدمج، مُحسَّن جيداً | |
| Phi-4 | Microsoft | 14B | 16K | MIT | 84.8 | صغير لكنه قادر بشكل مفاجئ |
الأكثر تساهلاً للاستخدام التجاري. يمنح حقوق براءات الاختراع، ويسمح بالتعديل وإعادة التوزيع. تفضّل Mistral هذا الترخيص لنماذجها الرائدة.
متساهل للغاية، بقيود ضئيلة. تُصدر DeepSeek تحت MIT، مما يجعل نماذجها من بين أكثر النماذج الرائدة ترخيصاً متحرراً.
متساهل لمعظم الاستخدامات التجارية، لكنه يتطلب اتفاقية ترخيص للمنتجات/الخدمات التي تتجاوز 700 مليون مستخدم نشط شهرياً. الشروط نفسها كما في Llama 3.
تمييز مهم: «open weight» يعني أن أوزان النموذج متاحة، لكن قد لا يكون كود التدريب والبيانات كذلك. المصدر المفتوح الحقيقي (مثل Mistral) يُصدر كليهما.
النماذج العامة ليست سوى البداية. أنتج النظام البيئي مفتوح المصدر نماذج متخصصة عالية القدرة تتفوق على نماذج عامة أكبر بكثير ضمن مجالها.
بالنسبة للشركات الأوروبية، تكون نماذج Mistral (مرخّصة Apache 2.0 لـ Mistral Small 3، مقرها في الاتحاد الأوروبي، مع توفّر خيارات استضافة داخل الاتحاد الأوروبي) غالباً الخيار الافتراضي لأسباب الامتثال وسيادة البيانات. يقدّم Mistral Small 3 وMistral Large 3 ترخيصاً متساهلاً أو ملائماً للاستخدام التجاري مع منشأ أوروبي واضح يلبّي العديد من متطلبات المشتريات وإقامة البيانات.
يهيمن إطاران: PyTorch وJAX. ما لم يكن لديك سبب محدد لاختيار JAX، ابدأ بـ PyTorch — فالنظام البيئي والأدوات ودعم المجتمع لا مثيل لها.
رسوم حسابية ديناميكية، وأسلوب تنفيذ أمري، وأكبر نظام بيئي بين جميع أطر تعلّم الآلة. تستخدمه Meta وMicrosoft وHugging Face والغالبية العظمى من مجتمع البحث.
إطار تعلّم الآلة الوظيفي من Google مع ترجمة XLA. يتفوق على وحدات TPU، ويتيح تحويلات الدوال (grad وjit وvmap وpmap). تُعدّ Flax وEquinox أبرز مكتبات الشبكات العصبية المبنية فوقه.
حمّل أي نموذج من الـ Hub واضبطه دقيقاً وشاركه. المكتبة المركزية للنظام البيئي للذكاء الاصطناعي مفتوح المصدر.
حلقات تدريب الضبط الدقيق المُشرَف (SFT) وRLHF وDPO وGRPO. المكتبة المعيارية لتدريب المواءمة.
طبقة تجريد واحدة للتدريب متعدد وحدات GPU ومتعدد العُقد ومختلط الدقة. اكتب مرة واحدة، وشغّل في كل مكان.
مراحل مُحسِّن ZeRO 1/2/3، والتوازي ثلاثي الأبعاد (tensor وpipeline وdata). مطلوب لتدريب النماذج الكبيرة جداً.
Fully Sharded Data Parallel — إجابة PyTorch الأصلية على DeepSpeed ZeRO. تكامل أبسط وأداء مماثل.
from transformers import AutoTokenizer, AutoModelForCausalLM
from trl import SFTTrainer, SFTConfig
from datasets import load_dataset
import torch
model = AutoModelForCausalLM.from_pretrained(
"meta-llama/Llama-4-Scout-17B-16E-Instruct",
torch_dtype=torch.bfloat16,
device_map="auto",
)
tokenizer = AutoTokenizer.from_pretrained("meta-llama/Llama-4-Scout-17B-16E-Instruct")
dataset = load_dataset("HuggingFaceH4/ultrachat_200k", split="train_sft[:10000]")
trainer = SFTTrainer(
model=model,
args=SFTConfig(
output_dir="./sft-output",
num_train_epochs=3,
per_device_train_batch_size=4,
),
train_dataset=dataset,
processing_class=tokenizer,
)
trainer.train()يتطلب الضبط الدقيق الكامل عدداً من وحدات GPU مماثلاً للتدريب المسبق — وهو أمر باهظ لمعظم الفرق. تتيح أساليب الضبط الدقيق الفعّال في المعاملات (PEFT) تكييف النماذج الرائدة على وحدة GPU واحدة.
بدلاً من تحديث جميع أوزان النموذج، يضيف LoRA مصفوفتي مُكيِّف صغيرتين A وB بجانب مصفوفات الأوزان المجمّدة. تُدرَّب المُكيِّفات وحدها، مما يقلّل المعاملات القابلة للتدريب بما يصل إلى 10000× لنموذج 7B.
تتحكم الرتبة r في سعة المُكيِّفات. القيم النموذجية: 8–64. رتبة أعلى = سعة أكبر لكن معاملات أكثر. وعند الاستدلال، يمكن دمج المُكيِّفات في النموذج الأساسي بدون أي عبء إضافي.
يُكمِّم QLoRA أوزان النموذج الأساسي إلى 4-bit NF4 (Normal Float 4)، ثم يدرّب مُكيِّفات LoRA بدقة bfloat16. يتيح هذا ضبط نموذج 70B دقيقاً على وحدتي GPU من نوع A100 80GB فقط — وهو ما يتطلب عادةً عنقوداً من 16 وحدة GPU. يكون فقدان الجودة الناتج عن التكميم ضئيلاً عندما تُدرَّب المُكيِّفات بدقة أعلى.
from peft import LoraConfig, get_peft_model
lora_config = LoraConfig(
r=16, # rank — controls adapter capacity
lora_alpha=32, # scaling factor (alpha/r = effective LR)
target_modules=["q_proj", "v_proj", "k_proj", "o_proj"],
lora_dropout=0.05,
bias="none",
task_type="CAUSAL_LM",
)
model = get_peft_model(model, lora_config)
model.print_trainable_parameters()
# trainable params: 6,815,744 || all params: 8,036,802,560 || trainable%: 0.085| الطريقة | ذاكرة GPU (7B) | المعاملات القابلة للتدريب | الجودة | أفضل حالة استخدام |
|---|---|---|---|---|
| Full Fine-Tuning | ~112 GB | 100% | الأعلى | عندما تكون الجودة هي الأهم وتتوفر وحدات GPU بوفرة |
| LoRA | ~16 GB | 0.1–1% | شبه كاملة | تكييف الأسلوب/التنسيق، ضبط التعليمات |
| QLoRA | ~6 GB | 0.1–1% | 95–98% من LoRA | ضبط دقيق بموارد محدودة، 70B على وحدتي GPU |
نسخة أحدث تُحلّل مصفوفات الأوزان إلى مكوّنَي مقدار واتجاه، ثم تطبّق LoRA على مكوّن الاتجاه فقط. غالباً ما تحقق جودة أفضل من LoRA القياسي عند الرتبة نفسها. مدعومة في peft عبر use_dora=True.
استخدم الضبط الدقيق عند:
استخدم RAG عند:
بمجرد حصولك على نموذج، تحتاج إلى تقديمه. يحدّد اختيار خادم الاستدلال إنتاجيتك وزمن الاستجابة والتعقيد التشغيلي. لأحمال الإنتاج، يُعدّ vLLM الخيار الأكثر اعتماداً على نطاق واسع.
| الخادم | اللغة | الأنسب لـ | التكميم | البث | الترخيص |
|---|---|---|---|---|---|
| vLLM | Python | إنتاج عالي الإنتاجية | GPTQ, AWQ, GGUF | ✓ | Apache 2.0 |
| TGI | Rust/Python | حزمة HuggingFace | bitsandbytes, GPTQ | ✓ | Apache 2.0 |
| Ollama | Go | التطوير المحلي | GGUF (llama.cpp) | ✓ | MIT |
| llama.cpp | C++ | الحافة/المعالج/Apple Silicon | GGUF all levels | ✓ | MIT |
| LMDeploy | Python | استدلال سريع + int4 | W4A16, W8A8 | ✓ | Apache 2.0 |
| Triton Inference Server | C++ | إنتاج متعدد الأطر | Backend dependent | ✓ | BSD |
يخصص الاستدلال التقليدي ذاكرة KV-cache في كتل متجاورة كبيرة، مما يهدر الذاكرة ويمنع تجميع (batching) الطلبات ذات أطوال التسلسل المختلفة. يتعامل PagedAttention مع KV-cache كصفحات ذاكرة افتراضية — تُخصَّص الكتل عند الطلب وتُشارَك بين الطلبات حيثما أمكن. يتيح هذا التجميع المستمر (انضمام الطلبات الجديدة إلى الدفعات الجارية) ويوفّر استغلالاً لوحدة GPU أفضل بمقدار 2 إلى 4× مقارنة بالتقديم الساذج.
# Start vLLM OpenAI-compatible server
python -m vllm.entrypoints.openai.api_server \
--model meta-llama/Llama-4-Scout-17B-16E-Instruct \
--dtype bfloat16 \
--max-model-len 8192 \
--port 8000from openai import OpenAI
# vLLM exposes an OpenAI-compatible API
client = OpenAI(base_url="http://localhost:8000/v1", api_key="token")
response = client.chat.completions.create(
model="meta-llama/Llama-4-Scout-17B-16E-Instruct",
messages=[{"role": "user", "content": "Explain attention mechanisms"}],
temperature=0.7,
max_tokens=512,
)
print(response.choices[0].message.content)للتطوير أو البيئات المعزولة (air-gapped) أو الاستخدام الشخصي، تتيح لك أدوات الاستدلال المحلي تشغيل النماذج على عتاد المستهلك دون حساب سحابي. يُعدّ Ollama أسهل نقطة بداية.
يدير تنزيلات النماذج وتكميم GGUF، ويعرض واجهة API محلية متوافقة مع OpenAI. لا حاجة لبيئة Python.
# Install Ollama
curl -fsSL https://ollama.ai/install.sh | sh
# تنزيل النماذج وتشغيلها
ollama run llama4:scout # ~23 GB GGUF Q4_K_M (MoE، فعّال)
ollama run mistral-small3 # ~14 GB GGUF Q4
ollama run deepseek-r1:70b # ~40 GB
ollama run qwen2.5-coder:7b # متخصص في الكود
# سرد النماذج المُنزَّلة
ollama list| التنسيق | بِت/وزن | الجودة | موصى به لـ |
|---|---|---|---|
| Q2_K | 2-bit | منخفضة | الحد الأدنى المطلق من ذاكرة RAM |
| Q4_K_M | 4-bit | جيدة | أفضل توازن بين الجودة/الحجم — الإعداد الافتراضي الموصى به |
| Q5_K_M | 5-bit | جيدة جداً | عندما تتوفر لديك ذاكرة RAM إضافية |
| Q6_K | 6-bit | ممتازة | شبه خالية من الفقد، مع توفّر ذاكرة RAM كبيرة |
| Q8_0 | 8-bit | شبه خالية من الفقد | التطوير، الأنظمة عالية الذاكرة |
| F16 | 16-bit | خالية من الفقد | أقصى جودة، GPU خادم فقط |
| العتاد | النموذج الموصى به |
|---|---|
| MacBook M2/M3/M4 (16GB) | 8B Q4_K_M |
| MacBook M2 Pro (32GB) | 13-14B Q4_K_M |
| MacBook M3 Max (64GB) | 70B Q4_K_M |
| RTX 3090 24GB | 13B Q8_0 or 30B Q4 |
| A100 80GB | 70B FP16 or Llama 4 Scout Q4 |
| 2× A100 80GB | Llama 4 Maverick Q4 or 70B FP16 |
واجهة رسومية متعددة المنصات للنماذج المحلية. تصفّح وتنزيل من HuggingFace، خادم محلي متوافق مع OpenAI، ومراقبة استخدام العتاد. رائعة للمستخدمين غير المطورين.
تطبيق LLM لسطح المكتب يضع الخصوصية أولاً. يعمل دون اتصال بنسبة 100%، مفتوح المصدر (AGPL)، يدعم النماذج المتوافقة مع Ollama. مصمم للمستخدمين الذين يريدون انعدام القياس عن بُعد.
قواعد بيانات المتجهات هي العمود الفقري لأنظمة RAG. يعتمد الاختيار الصحيح على الحجم والبنية التحتية القائمة وما إذا كنت بحاجة إلى تصفية البيانات الوصفية إلى جانب البحث المتجهي.
| قاعدة البيانات | النوع | الحجم | الترخيص | الميزة المميزة |
|---|---|---|---|---|
| pgvector | PostgreSQL extension | متوسط | Apache 2.0 | SQL + متجهات، دون بنية تحتية جديدة |
| Chroma | Embedded/server | صغير-متوسط | Apache 2.0 | أبسط واجهة API، رائعة للنماذج الأولية |
| Qdrant | Rust server | كبير | Apache 2.0 | تصفية الحمولة (payload)، سريعة |
| Weaviate | Go server | كبير | BSD | بحث هجين، GraphQL |
| Milvus | C++ server | كبير جداً | Apache 2.0 | حجم بالمليارات، سحابي أصيل |
| LanceDB | Embedded | متوسط | Apache 2.0 | Arrow أصيل، بدون خادم |
إذا كنت تشغّل PostgreSQL بالفعل، فإن pgvector يضيف البحث المتجهي دون أي بنية تحتية جديدة. يتعامل بسهولة مع ملايين المتجهات باستخدام فهارس IVFFlat أو HNSW — أكثر من كافٍ لمعظم أنظمة RAG في الإنتاج.
-- Enable the extension
CREATE EXTENSION IF NOT EXISTS vector;
-- Create table with vector column
CREATE TABLE documents (
id bigserial PRIMARY KEY,
content text,
embedding vector(1536) -- dimension matches your embedding model
);
-- Create approximate nearest neighbor index (IVFFlat)
CREATE INDEX ON documents USING ivfflat (embedding vector_cosine_ops)
WITH (lists = 100);
-- Alternatively, HNSW (better recall, slower build)
-- CREATE INDEX ON documents USING hnsw (embedding vector_cosine_ops);
-- Semantic similarity query
SELECT content, 1 - (embedding <=> '[0.1, 0.2, ...]'::vector) AS similarity
FROM documents
ORDER BY embedding <=> '[0.1, 0.2, ...]'::vector
LIMIT 5;تربط أطر التنسيق نموذجك بالأدوات والذاكرة وخطوط الأنابيب متعددة الخطوات. المشهد مزدحم — اختر بناءً على حالة استخدامك، لا على نجوم GitHub وحدها.
| الإطار | نجوم GitHub | الأنسب لـ | مستوى التجريد |
|---|---|---|---|
| LangChain | 90k+ | خطوط أنابيب عامة الغرض | مرتفع |
| LangGraph | 10k+ | سير عمل وكلاء ذو حالة | متوسط |
| LlamaIndex | 35k+ | تطبيقات كثيفة الاعتماد على RAG | متوسط |
| CrewAI | 20k+ | تعاون متعدد الوكلاء | مرتفع |
| AutoGen | 30k+ | وكلاء حواريون متعددون | متوسط |
| DSPy | 20k+ | تحسين المطالبات | منخفض-متوسط |
| Semantic Kernel | 20k+ | تكامل .NET/المؤسسات | مرتفع |
| Haystack | 15k+ | خطوط أنابيب NLP، مفتوحة | متوسط |
يتبنى DSPy فلسفة مختلفة عن الأطر الأخرى: بدلاً من صياغة قوالب المطالبات يدوياً، تحدّد توقيع مهمة (المدخلات والمخرجات والقيود) وبضعة أمثلة موسومة، ثم يحسّن DSPy المطالبات تلقائياً باستخدام خوارزميات مثل OPRO أو BootstrapFewShot. وهذا قوي بشكل خاص مع النماذج مفتوحة المصدر الأصغر الحساسة لصياغة المطالبات — دع المُحسِّن يجد ما ينجح بدلاً من التكرار يدوياً.
التقييم هو المكان الذي تفشل فيه معظم مشاريع الذكاء الاصطناعي مفتوحة المصدر في الإنتاج. قبل نشر أي نموذج، حدّد معايير جودة قابلة للقياس وأرسِ خط أساس.
lm-evaluation-harness
by EleutherAI
المُشغِّل المعياري للاختبارات المرجعية للنماذج مفتوحة المصدر. يشغّل MMLU وHellaSwag وARC وWinoGrande و60+ اختباراً مرجعياً آخر. يُستخدم لإنشاء درجات Open LLM Leaderboard.
OpenCompass
by Shanghai AI Lab
منصة تقييم شاملة بأكثر من 100 اختبار مرجعي، مع تغطية قوية بشكل خاص للاختبارات المرجعية باللغة الصينية ونماذج اللغات الآسيوية.
Ragas
by Explodinggradients
إطار تقييم خاص بـ RAG. يقيس استدعاء السياق والإخلاص وصلة الإجابة ودقة السياق باستخدام منهجية LLM-كحَكَم.
DeepEval
by Confident AI
إطار تقييم بأسلوب اختبارات الوحدة. اكتب تأكيدات التقييم بلغة Python، وادمجها في CI/CD، وتتبّع المقاييس عبر إصدارات النماذج.
Evals
by OpenAI
أصبح تنسيق التقييم الخاص بـ OpenAI معياراً صناعياً. تتبنى العديد من المشاريع مفتوحة المصدر بنية التقييم نفسها لقابلية التشغيل البيني.
HELMET
by Princeton
تقييم شامل لنماذج اللغة ذات السياق الطويل. حاسم للنماذج التي تدّعي نوافذ سياق كبيرة — يختبر الاستدعاء والاستدلال الفعليين في السياق الطويل.
from ragas import evaluate
from ragas.metrics import faithfulness, answer_relevancy, context_recall
from datasets import Dataset
eval_data = Dataset.from_dict({
"question": ["What is LoRA?"],
"answer": ["LoRA adds low-rank adapter matrices to frozen weights..."],
"contexts": [["Low-Rank Adaptation adds trainable matrices A and B..."]],
"ground_truth": ["LoRA is a parameter-efficient fine-tuning method..."],
})
result = evaluate(
eval_data,
metrics=[faithfulness, answer_relevancy, context_recall]
)
print(result)
# {'faithfulness': 0.96, 'answer_relevancy': 0.89, 'context_recall': 0.92}لا توجد إجابة صحيحة عالمية. اعمل على هذه الأسئلة بالترتيب — كل إجابة تضيّق خياراتك بشكل كبير.
إذا كانت البيانات لا يمكن أن تغادر بنيتك التحتية، فأنت على مسار المصدر المفتوح حصراً بشكل افتراضي. هذا يستبعد فوراً أي خدمة API مُدارة. حدّد حجم بنيتك التحتية أولاً.
< 1K طلب/يوم: Ollama على جهاز واحد يكفي. 1K–100K/يوم: vLLM على عقدة A100 واحدة. > 100K/يوم: عنقود vLLM أو TGI خلف موازِن تحميل. عند الأحجام الكبيرة جداً، توفيرات التكلفة مقارنة بالوصول عبر API تسدّد ثمن البنية التحتية خلال أسابيع.
دليل تقريبي: نموذج 7B ≈ 14 GB FP16 (أو 5–6 GB Q4)؛ 13B ≈ 26 GB؛ 70B ≈ 140 GB FP16 (أو 40 GB Q4)؛ 405B ≈ 810 GB FP16 (أو 200 GB Q4). أضف 20% عبئاً إضافياً لـ KV-cache. يحتاج الضبط الدقيق QLoRA إلى ~1.5× ذاكرة الاستدلال.
محادثة عامة → Llama 4 Scout. توليد الكود → Qwen2.5-Coder. الاستدلال/الرياضيات → DeepSeek-R1. متعدد اللغات → Qwen2.5 72B. أسئلة وأجوبة المستندات → Mistral Small 3 + pgvector. لكل مجال فائز واضح — لا تستخدم نموذجاً عاماً عندما يوجد متخصص.
تغييرات الأسلوب والتنسيق → LoRA (سريع، رخيص). المعرفة الخاصة بالمجال → QLoRA + SFT على مجموعتك النصية. تحسين الاستدلال → GRPO أو DPO على بيانات التفضيل. إذا كان سلوك النموذج الأساسي قريباً بما يكفي مع المطالبات، فتجاوز الضبط الدقيق تماماً.
| حالة الاستخدام | النموذج | التقديم | التنسيق | قاعدة بيانات المتجهات |
|---|---|---|---|---|
| روبوت محادثة داخلي | Llama 4 Scout | vLLM | LangChain | pgvector |
| مساعد برمجة | Qwen2.5-Coder 7B | Ollama | Claude Code | — |
| أسئلة وأجوبة المستندات | Mistral Small 3 | vLLM | LlamaIndex | Qdrant |
| سير عمل متعدد الوكلاء | Llama 4 Scout | vLLM | LangGraph | pgvector |
| مهام الاستدلال | DeepSeek-R1-Distill 7B | Ollama/vLLM | Custom | — |
| حرج للخصوصية | Llama 4 Scout | Ollama (air-gapped) | Custom | Chroma |
يتطلب اختيار النموذج والبنية التحتية المناسبين لحالة استخدامك الموازنة بين الأداء والتكلفة والامتثال والنضج التشغيلي. نساعد الشركات على التنقّل في هذه القرارات وتنفيذ أنظمة ذكاء اصطناعي مفتوحة المصدر موثوقة وخاصة وفعّالة من حيث التكلفة على نطاق واسع.
ابنِ أنظمة التوليد المعزّز بالاسترجاع التي تعمل في الإنتاج مع قواعد بيانات المتجهات مفتوحة المصدر
ابنِ وكلاء إنتاج باستخدام نماذج LLM مفتوحة المصدر، من البنية إلى النشر
قلّل تكاليف الاستدلال بنسبة 70–90% عبر اختيار النماذج والتكميم واستراتيجيات التخزين المؤقت