Ο οριστικός οδηγός για το open source AI το 2026. Κορυφαία μοντέλα, frameworks εκπαίδευσης, διακομιστές inference, τεχνικές fine-tuning, βάσεις δεδομένων διανυσμάτων και εργαλεία ενορχήστρωσης — με πρακτική καθοδήγηση για την επιλογή του σωστού stack για την περίπτωσή σας.
Το 2022, το GPT-3.5 θεωρούνταν ευρέως απρόσιτο από την κοινότητα open source. Το χάσμα έμοιαζε ανυπέρβλητο. Έως το 2026 η εικόνα είναι δραματικά διαφορετική: το Llama 4 Maverick είναι ανταγωνιστικό με κορυφαία κλειστά μοντέλα στα περισσότερα benchmarks, το DeepSeek-R1 προκαλεί το OpenAI o1 στη μαθηματική συλλογιστική, και το οικοσύστημα open source έχει παραγάγει εξειδικευμένα μοντέλα που ξεπερνούν τα κλειστά αντίστοιχα σε στενούς τομείς.
Για τις επιχειρήσεις και τους προγραμματιστές, αυτό σημαίνει για πρώτη φορά πραγματική επιλογή. Τα μοντέλα open-weight δεν είναι πλέον εφεδρική λύση· είναι συχνά η πρώτη επιλογή.
Το μοντέλο εκτελείται εξ ολοκλήρου στην υποδομή σας. Τα δεδομένα σας δεν εγκαταλείπουν ποτέ το περιβάλλον σας — κρίσιμο για την υγεία, τα νομικά, τα χρηματοοικονομικά και κάθε ρυθμιζόμενο κλάδο.
Ένα μόνο cluster A100 αντικαθιστά τα κόστη API ανά token σε όγκο. Σε πάνω από 10 εκατ. αιτήματα τον μήνα, τα μοντέλα ιδιο-φιλοξενίας προσφέρουν συνήθως μείωση κόστους 5–20×.
Fine-tune στον τομέα σας, στο ύφος σας, στα δεδομένα σας. Τα κλειστά API σάς δίνουν μηχανική prompt· τα ανοιχτά βάρη σάς δίνουν πλήρη έλεγχο του μοντέλου.
Το λειτουργικό βάρος. Η ιδιο-φιλοξενία ενός μοντέλου σημαίνει ότι αναλαμβάνετε εσείς την παροχή υποδομής, τις ενημερώσεις μοντέλων, την παρακολούθηση, τον σχεδιασμό χωρητικότητας και την αντιμετώπιση περιστατικών. Τα κλειστά API τα εξωτερικεύουν όλα αυτά. Το ερώτημα δεν είναι ποτέ «είναι καλύτερο το open source;» — είναι «έχετε τη μηχανική ικανότητα να το λειτουργήσετε αξιόπιστα;»
graph TB A["Foundation Models (Llama 4, Mistral Large 3, Qwen 2.5, DeepSeek R2)"] --> B["Fine-tuned / Instruction-tuned Variants"] B --> C["Inference Server (vLLM / TGI / Ollama)"] C --> D["Orchestration Layer (LangChain, LlamaIndex, CrewAI)"] D --> E["Application (RAG, Agents, Chatbot, Code assistant)"]
Το τοπίο στις αρχές του 2026. Οι βαθμολογίες MMLU είναι ενδεικτικές — κάντε πάντα benchmark στη συγκεκριμένη εργασία σας πριν επιλέξετε μοντέλο για παραγωγή.
| Μοντέλο | Οργ. | Παράμετροι | Πλαίσιο | Άδεια | MMLU | Ιδανικό για |
|---|---|---|---|---|---|---|
| Llama 4 Maverick | Meta | 400B (MoE) | 1M | Llama 4 | 87.5 | Ανταγωνιστικό στην αιχμή, πολυτροπικό |
| Llama 4 Scout | Meta | 109B (MoE) | 10M | Llama 4 | 79.6 | Μακρύ πλαίσιο, αποδοτικό MoE |
| Llama 4 Behemoth | Meta | 2T (MoE, preview) | 256K | Llama 4 | 92.0 | Μέγιστη ικανότητα (μοντέλο-δάσκαλος) |
| Mistral Large 3 | Mistral | 123B | 128K | MRL | 84.0 | Επιχείρηση, ευρωπαϊκή συμμόρφωση |
| Mistral Small 3 | Mistral | 24B | 128K | Apache 2.0 | 81.0 | Αποδοτικό, επιτρεπτική άδεια |
| DeepSeek-R1 | DeepSeek | 671B (MoE) | 128K | MIT | 90.8 | Συλλογιστική, μαθηματικά, κώδικας |
| DeepSeek-R1-Distill-70B | DeepSeek | 70B | 128K | MIT | 86.7 | Αποδοτική συλλογιστική |
| Qwen2.5 72B | Alibaba | 72B | 128K | Qwen License | 86.6 | Πολύγλωσσο, κωδικοποίηση |
| Qwen2.5-Coder 32B | Alibaba | 32B | 128K | Apache 2.0 | — | Δημιουργία κώδικα |
| Gemma 2 27B | 27B | 8K | Gemma | 75.2 | Συμπαγές, καλά βελτιστοποιημένο | |
| Phi-4 | Microsoft | 14B | 16K | MIT | 84.8 | Μικρό αλλά εκπληκτικά ικανό |
Η πιο επιτρεπτική για εμπορική χρήση. Παραχωρεί δικαιώματα ευρεσιτεχνίας, επιτρέπει τροποποίηση και αναδιανομή. Η Mistral την προτιμά για τα ναυαρχίδα μοντέλα της.
Εξαιρετικά επιτρεπτική, με ελάχιστους περιορισμούς. Η DeepSeek δημοσιεύει υπό MIT, καθιστώντας τα μοντέλα της από τα πιο φιλελεύθερα αδειοδοτημένα κορυφαία μοντέλα.
Επιτρεπτική για τις περισσότερες εμπορικές χρήσεις, αλλά απαιτεί συμφωνία άδειας για προϊόντα/υπηρεσίες με > 700 εκατ. μηνιαίους ενεργούς χρήστες. Ίδιοι όροι με το Llama 3.
Σημαντική διάκριση: «open weight» σημαίνει ότι τα βάρη του μοντέλου είναι διαθέσιμα, αλλά ο κώδικας και τα δεδομένα εκπαίδευσης ίσως όχι. Το αληθινό open source (όπως η Mistral) δημοσιεύει και τα δύο.
Τα μοντέλα γενικής χρήσης είναι μόνο η αρχή. Το οικοσύστημα open source έχει παραγάγει εξαιρετικά ικανά εξειδικευμένα μοντέλα που ξεπερνούν πολύ μεγαλύτερα γενικά μοντέλα εντός του τομέα τους.
Για τις ευρωπαϊκές επιχειρήσεις, τα μοντέλα της Mistral (αδειοδοτημένα Apache 2.0 για το Mistral Small 3, με έδρα στην ΕΕ, με διαθέσιμες επιλογές φιλοξενίας στην ΕΕ) είναι συχνά η προεπιλεγμένη επιλογή για λόγους συμμόρφωσης και κυριαρχίας δεδομένων. Το Mistral Small 3 και το Mistral Large 3 προσφέρουν επιτρεπτική ή φιλική προς εμπορική χρήση άδεια με σαφή ευρωπαϊκή προέλευση που ικανοποιεί πολλές απαιτήσεις προμηθειών και διαμονής δεδομένων.
Δύο frameworks κυριαρχούν: το PyTorch και το JAX. Εκτός αν έχετε συγκεκριμένο λόγο να επιλέξετε JAX, ξεκινήστε με το PyTorch — το οικοσύστημα, τα εργαλεία και η υποστήριξη της κοινότητας είναι ασυναγώνιστα.
Δυναμικά γραφήματα υπολογισμού, επιτακτικό στυλ εκτέλεσης και το μεγαλύτερο οικοσύστημα από κάθε framework ML. Χρησιμοποιείται από τη Meta, τη Microsoft, το Hugging Face και τη συντριπτική πλειονότητα της ερευνητικής κοινότητας.
Το λειτουργικό framework ML της Google με μεταγλώττιση XLA. Διαπρέπει στα TPU, επιτρέπει μετασχηματισμούς συναρτήσεων (grad, jit, vmap, pmap). Τα Flax και Equinox είναι οι κορυφαίες βιβλιοθήκες νευρωνικών δικτύων που χτίζονται πάνω του.
Φορτώστε, κάντε fine-tune και μοιραστείτε οποιοδήποτε μοντέλο από το Hub. Η κεντρική βιβλιοθήκη του οικοσυστήματος open source AI.
Βρόχοι εκπαίδευσης επιβλεπόμενου fine-tuning (SFT), RLHF, DPO και GRPO. Η πρότυπη βιβλιοθήκη για εκπαίδευση ευθυγράμμισης.
Ενιαίο επίπεδο αφαίρεσης για εκπαίδευση multi-GPU, multi-node και μικτής ακρίβειας. Γράψτε μία φορά, εκτελέστε παντού.
Στάδια optimizer ZeRO 1/2/3, παραλληλισμός 3D (tensor, pipeline, δεδομένα). Απαραίτητο για την εκπαίδευση πολύ μεγάλων μοντέλων.
Fully Sharded Data Parallel — η εγγενής απάντηση του PyTorch στο DeepSpeed ZeRO. Απλούστερη ενσωμάτωση, συγκρίσιμη απόδοση.
from transformers import AutoTokenizer, AutoModelForCausalLM
from trl import SFTTrainer, SFTConfig
from datasets import load_dataset
import torch
model = AutoModelForCausalLM.from_pretrained(
"meta-llama/Llama-4-Scout-17B-16E-Instruct",
torch_dtype=torch.bfloat16,
device_map="auto",
)
tokenizer = AutoTokenizer.from_pretrained("meta-llama/Llama-4-Scout-17B-16E-Instruct")
dataset = load_dataset("HuggingFaceH4/ultrachat_200k", split="train_sft[:10000]")
trainer = SFTTrainer(
model=model,
args=SFTConfig(
output_dir="./sft-output",
num_train_epochs=3,
per_device_train_batch_size=4,
),
train_dataset=dataset,
processing_class=tokenizer,
)
trainer.train()Το πλήρες fine-tuning απαιτεί τόσες GPU όσες και η προεκπαίδευση — απαγορευτικό για τις περισσότερες ομάδες. Οι μέθοδοι fine-tuning αποδοτικού ως προς τις παραμέτρους (PEFT) καθιστούν δυνατή την προσαρμογή κορυφαίων μοντέλων σε μία μόνο GPU.
Αντί να ενημερώνει όλα τα βάρη του μοντέλου, το LoRA προσθέτει μικρούς πίνακες προσαρμογέων A και B παράλληλα με παγωμένους πίνακες βαρών. Εκπαιδεύονται μόνο οι προσαρμογείς, μειώνοντας τις εκπαιδεύσιμες παραμέτρους έως και 10.000× για ένα μοντέλο 7B.
Η τάξη r ελέγχει τη χωρητικότητα των προσαρμογέων. Τυπικές τιμές: 8–64. Υψηλότερη τάξη = μεγαλύτερη χωρητικότητα αλλά περισσότερες παράμετροι. Κατά το inference, οι προσαρμογείς μπορούν να συγχωνευθούν στο βασικό μοντέλο για μηδενική επιβάρυνση.
Το QLoRA κβαντίζει τα βάρη του βασικού μοντέλου σε 4-bit NF4 (Normal Float 4) και στη συνέχεια εκπαιδεύει προσαρμογείς LoRA σε bfloat16. Αυτό επιτρέπει το fine-tuning ενός μοντέλου 70B σε μόλις 2× GPU A100 80GB — κάτι που κανονικά θα απαιτούσε cluster 16 GPU. Η απώλεια ποιότητας από την κβάντιση είναι ελάχιστη όταν οι προσαρμογείς εκπαιδεύονται σε υψηλότερη ακρίβεια.
from peft import LoraConfig, get_peft_model
lora_config = LoraConfig(
r=16, # rank — controls adapter capacity
lora_alpha=32, # scaling factor (alpha/r = effective LR)
target_modules=["q_proj", "v_proj", "k_proj", "o_proj"],
lora_dropout=0.05,
bias="none",
task_type="CAUSAL_LM",
)
model = get_peft_model(model, lora_config)
model.print_trainable_parameters()
# trainable params: 6,815,744 || all params: 8,036,802,560 || trainable%: 0.085| Μέθοδος | Μνήμη GPU (7B) | Εκπαιδεύσιμες παράμετροι | Ποιότητα | Καλύτερη περίπτωση χρήσης |
|---|---|---|---|---|
| Full Fine-Tuning | ~112 GB | 100% | Υψηλότερη | Όταν η ποιότητα είναι υψίστης σημασίας και οι GPU άφθονες |
| LoRA | ~16 GB | 0.1–1% | Σχεδόν πλήρης | Προσαρμογή ύφους/μορφής, instruction tuning |
| QLoRA | ~6 GB | 0.1–1% | 95–98% του LoRA | Fine-tuning με περιορισμένους πόρους, 70B σε 2 GPU |
Μια νεότερη παραλλαγή που αποσυνθέτει τους πίνακες βαρών σε συνιστώσες μέτρου και κατεύθυνσης και στη συνέχεια εφαρμόζει LoRA μόνο στη συνιστώσα κατεύθυνσης. Επιτυγχάνει συχνά καλύτερη ποιότητα από το τυπικό LoRA στην ίδια τάξη. Υποστηρίζεται στο peft μέσω use_dora=True.
Χρησιμοποιήστε fine-tuning όταν:
Χρησιμοποιήστε RAG όταν:
Μόλις έχετε ένα μοντέλο, πρέπει να το σερβίρετε. Η επιλογή του διακομιστή inference καθορίζει τη ρυθμαπόδοσή σας, την καθυστέρηση και τη λειτουργική πολυπλοκότητα. Για φόρτους παραγωγής, το vLLM είναι η πιο ευρέως υιοθετημένη επιλογή.
| Διακομιστής | Γλώσσα | Ιδανικό για | Κβάντιση | Streaming | Άδεια |
|---|---|---|---|---|---|
| vLLM | Python | Παραγωγή υψηλής ρυθμαπόδοσης | GPTQ, AWQ, GGUF | ✓ | Apache 2.0 |
| TGI | Rust/Python | Stack HuggingFace | bitsandbytes, GPTQ | ✓ | Apache 2.0 |
| Ollama | Go | Τοπική ανάπτυξη | GGUF (llama.cpp) | ✓ | MIT |
| llama.cpp | C++ | Edge/CPU/Apple Silicon | GGUF all levels | ✓ | MIT |
| LMDeploy | Python | Γρήγορο inference + int4 | W4A16, W8A8 | ✓ | Apache 2.0 |
| Triton Inference Server | C++ | Παραγωγή πολλαπλών frameworks | Backend dependent | ✓ | BSD |
Το παραδοσιακό inference δεσμεύει την KV-cache σε μεγάλα συνεχόμενα μπλοκ, σπαταλώντας μνήμη και εμποδίζοντας το batching αιτημάτων με διαφορετικά μήκη ακολουθίας. Το PagedAttention αντιμετωπίζει την KV-cache σαν σελίδες εικονικής μνήμης — τα μπλοκ δεσμεύονται κατ' απαίτηση και μοιράζονται μεταξύ αιτημάτων όπου είναι δυνατόν. Αυτό επιτρέπει το συνεχές batching (νέα αιτήματα εντάσσονται σε εν εξελίξει batches) και προσφέρει 2–4× καλύτερη αξιοποίηση GPU έναντι του απλοϊκού serving.
# Start vLLM OpenAI-compatible server
python -m vllm.entrypoints.openai.api_server \
--model meta-llama/Llama-4-Scout-17B-16E-Instruct \
--dtype bfloat16 \
--max-model-len 8192 \
--port 8000from openai import OpenAI
# vLLM exposes an OpenAI-compatible API
client = OpenAI(base_url="http://localhost:8000/v1", api_key="token")
response = client.chat.completions.create(
model="meta-llama/Llama-4-Scout-17B-16E-Instruct",
messages=[{"role": "user", "content": "Explain attention mechanisms"}],
temperature=0.7,
max_tokens=512,
)
print(response.choices[0].message.content)Για ανάπτυξη, απομονωμένα (air-gapped) περιβάλλοντα ή προσωπική χρήση, τα εργαλεία τοπικού inference σάς επιτρέπουν να εκτελείτε μοντέλα σε καταναλωτικό υλικό χωρίς λογαριασμό cloud. Το Ollama είναι το ευκολότερο σημείο εκκίνησης.
Διαχειρίζεται τις λήψεις μοντέλων, την κβάντιση GGUF και εκθέτει ένα τοπικό API συμβατό με OpenAI. Δεν απαιτείται περιβάλλον Python.
# Install Ollama
curl -fsSL https://ollama.ai/install.sh | sh
# Λήψη και εκτέλεση μοντέλων
ollama run llama4:scout # ~23 GB GGUF Q4_K_M (MoE, αποδοτικό)
ollama run mistral-small3 # ~14 GB GGUF Q4
ollama run deepseek-r1:70b # ~40 GB
ollama run qwen2.5-coder:7b # Ειδικό σε κώδικα
# Λίστα ληφθέντων μοντέλων
ollama list| Μορφή | Bits/βάρος | Ποιότητα | Συνιστάται για |
|---|---|---|---|
| Q2_K | 2-bit | Χαμηλή | Απόλυτο ελάχιστο RAM |
| Q4_K_M | 4-bit | Καλή | Καλύτερη ισορροπία ποιότητας/μεγέθους — συνιστώμενη προεπιλογή |
| Q5_K_M | 5-bit | Πολύ καλή | Όταν έχετε επιπλέον RAM διαθέσιμη |
| Q6_K | 6-bit | Εξαιρετική | Σχεδόν χωρίς απώλειες, μεγάλη διαθέσιμη RAM |
| Q8_0 | 8-bit | Σχεδόν χωρίς απώλειες | Ανάπτυξη, συστήματα με πολλή RAM |
| F16 | 16-bit | Χωρίς απώλειες | Μέγιστη ποιότητα, μόνο GPU διακομιστή |
| Υλικό | Συνιστώμενο μοντέλο |
|---|---|
| MacBook M2/M3/M4 (16GB) | 8B Q4_K_M |
| MacBook M2 Pro (32GB) | 13-14B Q4_K_M |
| MacBook M3 Max (64GB) | 70B Q4_K_M |
| RTX 3090 24GB | 13B Q8_0 or 30B Q4 |
| A100 80GB | 70B FP16 or Llama 4 Scout Q4 |
| 2× A100 80GB | Llama 4 Maverick Q4 or 70B FP16 |
Διαπλατφορμικό GUI για τοπικά μοντέλα. Περιήγηση και λήψη από το HuggingFace, τοπικός διακομιστής συμβατός με OpenAI, παρακολούθηση χρήσης υλικού. Ιδανικό για χρήστες χωρίς γνώσεις προγραμματισμού.
Εφαρμογή LLM επιφάνειας εργασίας με προτεραιότητα στο απόρρητο. 100% εκτός σύνδεσης, open source (AGPL), υποστηρίζει μοντέλα συμβατά με Ollama. Φτιαγμένη για χρήστες που θέλουν μηδενική τηλεμετρία.
Οι βάσεις δεδομένων διανυσμάτων είναι η ραχοκοκαλιά των συστημάτων RAG. Η σωστή επιλογή εξαρτάται από την κλίμακα, την υπάρχουσα υποδομή και το αν χρειάζεστε φιλτράρισμα μεταδεδομένων παράλληλα με την αναζήτηση διανυσμάτων.
| Βάση δεδομένων | Τύπος | Κλίμακα | Άδεια | Μοναδικό χαρακτηριστικό |
|---|---|---|---|---|
| pgvector | PostgreSQL extension | Μεσαία | Apache 2.0 | SQL + διανύσματα, καμία νέα υποδομή |
| Chroma | Embedded/server | Μικρή-Μεσαία | Apache 2.0 | Απλούστερο API, εξαιρετικό για prototyping |
| Qdrant | Rust server | Μεγάλη | Apache 2.0 | Φιλτράρισμα payload, γρήγορο |
| Weaviate | Go server | Μεγάλη | BSD | Υβριδική αναζήτηση, GraphQL |
| Milvus | C++ server | Πολύ μεγάλη | Apache 2.0 | Κλίμακα δισεκατομμυρίων, cloud-native |
| LanceDB | Embedded | Μεσαία | Apache 2.0 | Arrow-native, serverless |
Αν ήδη εκτελείτε PostgreSQL, το pgvector προσθέτει αναζήτηση διανυσμάτων χωρίς καμία νέα υποδομή. Διαχειρίζεται άνετα εκατομμύρια διανύσματα με δείκτες IVFFlat ή HNSW — υπεραρκετά για τα περισσότερα συστήματα RAG σε παραγωγή.
-- Enable the extension
CREATE EXTENSION IF NOT EXISTS vector;
-- Create table with vector column
CREATE TABLE documents (
id bigserial PRIMARY KEY,
content text,
embedding vector(1536) -- dimension matches your embedding model
);
-- Create approximate nearest neighbor index (IVFFlat)
CREATE INDEX ON documents USING ivfflat (embedding vector_cosine_ops)
WITH (lists = 100);
-- Alternatively, HNSW (better recall, slower build)
-- CREATE INDEX ON documents USING hnsw (embedding vector_cosine_ops);
-- Semantic similarity query
SELECT content, 1 - (embedding <=> '[0.1, 0.2, ...]'::vector) AS similarity
FROM documents
ORDER BY embedding <=> '[0.1, 0.2, ...]'::vector
LIMIT 5;Τα frameworks ενορχήστρωσης συνδέουν το μοντέλο σας με εργαλεία, μνήμη και pipelines πολλαπλών βημάτων. Το τοπίο είναι πυκνό — επιλέξτε με βάση την περίπτωση χρήσης σας, όχι μόνο τα αστέρια του GitHub.
| Framework | Αστέρια GitHub | Ιδανικό για | Επίπεδο αφαίρεσης |
|---|---|---|---|
| LangChain | 90k+ | Pipelines γενικής χρήσης | Υψηλό |
| LangGraph | 10k+ | Ροές εργασίας πρακτόρων με κατάσταση | Μεσαίο |
| LlamaIndex | 35k+ | Εφαρμογές με έντονο RAG | Μεσαίο |
| CrewAI | 20k+ | Συνεργασία πολλαπλών πρακτόρων | Υψηλό |
| AutoGen | 30k+ | Συνομιλιακοί πολλαπλοί πράκτορες | Μεσαίο |
| DSPy | 20k+ | Βελτιστοποίηση prompt | Χαμηλό-Μεσαίο |
| Semantic Kernel | 20k+ | Ενσωμάτωση .NET/επιχειρήσεων | Υψηλό |
| Haystack | 15k+ | Pipelines NLP, ανοιχτά | Μεσαίο |
Το DSPy υιοθετεί διαφορετική φιλοσοφία από άλλα frameworks: αντί να φτιάχνετε χειροκίνητα πρότυπα prompt, ορίζετε μια υπογραφή εργασίας (είσοδοι, έξοδοι και περιορισμοί) και μερικά παραδείγματα με ετικέτα, και στη συνέχεια το DSPy βελτιστοποιεί αυτόματα τα prompts με αλγορίθμους όπως το OPRO ή το BootstrapFewShot. Αυτό είναι ιδιαίτερα ισχυρό με μικρότερα μοντέλα open source που είναι ευαίσθητα στη διατύπωση των prompt — αφήστε τον βελτιστοποιητή να βρει τι λειτουργεί αντί να επαναλαμβάνετε χειροκίνητα.
Η αξιολόγηση είναι το σημείο όπου τα περισσότερα έργα open source AI αποτυγχάνουν στην παραγωγή. Πριν αναπτύξετε οποιοδήποτε μοντέλο, ορίστε μετρήσιμα κριτήρια ποιότητας και καθιερώστε μια βάση αναφοράς.
lm-evaluation-harness
by EleutherAI
Ο πρότυπος εκτελεστής benchmark για μοντέλα open source. Εκτελεί MMLU, HellaSwag, ARC, WinoGrande και 60+ άλλα benchmarks. Χρησιμοποιείται για τη δημιουργία των βαθμολογιών του Open LLM Leaderboard.
OpenCompass
by Shanghai AI Lab
Ολοκληρωμένη πλατφόρμα αξιολόγησης με 100+ benchmarks, με ιδιαίτερα ισχυρή κάλυψη κινεζικών benchmarks και ασιατικών γλωσσικών μοντέλων.
Ragas
by Explodinggradients
Framework αξιολόγησης ειδικό για RAG. Μετρά την ανάκληση πλαισίου, την πιστότητα, τη συνάφεια απαντήσεων και την ακρίβεια πλαισίου με τη μεθοδολογία LLM-ως-κριτή.
DeepEval
by Confident AI
Framework αξιολόγησης σε στυλ unit-test. Γράψτε ισχυρισμούς αξιολόγησης σε Python, ενσωματώστε τους στο CI/CD, παρακολουθήστε μετρικές ανά εκδόσεις μοντέλων.
Evals
by OpenAI
Η μορφή αξιολόγησης της OpenAI έχει γίνει πρότυπο του κλάδου. Πολλά έργα open source υιοθετούν την ίδια δομή eval για διαλειτουργικότητα.
HELMET
by Princeton
Ολιστική αξιολόγηση γλωσσικών μοντέλων μεγάλου πλαισίου. Κρίσιμη για μοντέλα που διεκδικούν μεγάλα παράθυρα πλαισίου — ελέγχει την πραγματική ανάκληση και συλλογιστική σε μεγάλο πλαίσιο.
from ragas import evaluate
from ragas.metrics import faithfulness, answer_relevancy, context_recall
from datasets import Dataset
eval_data = Dataset.from_dict({
"question": ["What is LoRA?"],
"answer": ["LoRA adds low-rank adapter matrices to frozen weights..."],
"contexts": [["Low-Rank Adaptation adds trainable matrices A and B..."]],
"ground_truth": ["LoRA is a parameter-efficient fine-tuning method..."],
})
result = evaluate(
eval_data,
metrics=[faithfulness, answer_relevancy, context_recall]
)
print(result)
# {'faithfulness': 0.96, 'answer_relevancy': 0.89, 'context_recall': 0.92}Δεν υπάρχει καθολικά σωστή απάντηση. Δουλέψτε αυτές τις ερωτήσεις με τη σειρά — κάθε απάντηση περιορίζει σημαντικά τις επιλογές σας.
Αν τα δεδομένα δεν μπορούν να εγκαταλείψουν την υποδομή σας, βρίσκεστε εξ ορισμού στο μονοπάτι αποκλειστικά open source. Αυτό αποκλείει αμέσως κάθε διαχειριζόμενη υπηρεσία API. Διαστασιολογήστε πρώτα την υποδομή σας.
< 1K αιτήματα/ημέρα: το Ollama σε ένα μηχάνημα αρκεί. 1K–100K/ημέρα: vLLM σε έναν κόμβο A100. > 100K/ημέρα: cluster vLLM ή TGI πίσω από εξισορροπητή φορτίου. Σε πολύ υψηλούς όγκους, η εξοικονόμηση έναντι της πρόσβασης API αποσβένει την υποδομή μέσα σε εβδομάδες.
Πρόχειρος οδηγός: μοντέλο 7B ≈ 14 GB FP16 (ή 5–6 GB Q4)· 13B ≈ 26 GB· 70B ≈ 140 GB FP16 (ή 40 GB Q4)· 405B ≈ 810 GB FP16 (ή 200 GB Q4). Προσθέστε 20% επιβάρυνση για την KV-cache. Το fine-tuning QLoRA χρειάζεται ~1,5× τη μνήμη inference.
Γενική συνομιλία → Llama 4 Scout. Δημιουργία κώδικα → Qwen2.5-Coder. Συλλογιστική/μαθηματικά → DeepSeek-R1. Πολύγλωσσο → Qwen2.5 72B. Q&A εγγράφων → Mistral Small 3 + pgvector. Κάθε τομέας έχει σαφή νικητή — μη χρησιμοποιείτε γενικό μοντέλο όταν υπάρχει ειδικό.
Αλλαγές ύφους και μορφής → LoRA (γρήγορο, φθηνό). Γνώση ειδική ανά τομέα → QLoRA + SFT στο corpus σας. Βελτίωση συλλογιστικής → GRPO ή DPO σε δεδομένα προτίμησης. Αν η συμπεριφορά του βασικού μοντέλου είναι αρκετά κοντά με prompting, παραλείψτε εντελώς το fine-tuning.
| Περίπτωση χρήσης | Μοντέλο | Serving | Ενορχήστρωση | Βάση διανυσμάτων |
|---|---|---|---|---|
| Εσωτερικό chatbot | Llama 4 Scout | vLLM | LangChain | pgvector |
| Βοηθός κώδικα | Qwen2.5-Coder 7B | Ollama | Claude Code | — |
| Q&A εγγράφων | Mistral Small 3 | vLLM | LlamaIndex | Qdrant |
| Ροή εργασίας πολλαπλών πρακτόρων | Llama 4 Scout | vLLM | LangGraph | pgvector |
| Εργασίες συλλογιστικής | DeepSeek-R1-Distill 7B | Ollama/vLLM | Custom | — |
| Κρίσιμο ως προς το απόρρητο | Llama 4 Scout | Ollama (air-gapped) | Custom | Chroma |
Η επιλογή του σωστού μοντέλου και της σωστής υποδομής για την περίπτωσή σας απαιτεί εξισορρόπηση απόδοσης, κόστους, συμμόρφωσης και λειτουργικής ωριμότητας. Βοηθάμε τις επιχειρήσεις να πλοηγηθούν σε αυτές τις αποφάσεις και να υλοποιήσουν συστήματα open source AI που είναι αξιόπιστα, ιδιωτικά και οικονομικά αποδοτικά σε κλίμακα.
Δημιουργήστε συστήματα retrieval-augmented generation που λειτουργούν σε παραγωγή με βάσεις δεδομένων διανυσμάτων open source
Δημιουργήστε πράκτορες παραγωγής με LLM open source, από την αρχιτεκτονική έως την ανάπτυξη
Μειώστε το κόστος inference κατά 70–90% μέσω επιλογής μοντέλων, κβάντισης και στρατηγικών caching