Πόροι/Οδηγός Τοπίου

Open Source AI

Τοπίο Open Source AI 2026

Ο οριστικός οδηγός για το open source AI το 2026. Κορυφαία μοντέλα, frameworks εκπαίδευσης, διακομιστές inference, τεχνικές fine-tuning, βάσεις δεδομένων διανυσμάτων και εργαλεία ενορχήστρωσης — με πρακτική καθοδήγηση για την επιλογή του σωστού stack για την περίπτωσή σας.

11 Ενότητες

45 λεπτά ανάγνωσης

Περιλαμβάνονται παραδείγματα κώδικα

March 2026

Γιατί έχει σημασία το Open Source AI

Το 2022, το GPT-3.5 θεωρούνταν ευρέως απρόσιτο από την κοινότητα open source. Το χάσμα έμοιαζε ανυπέρβλητο. Έως το 2026 η εικόνα είναι δραματικά διαφορετική: το Llama 4 Maverick είναι ανταγωνιστικό με κορυφαία κλειστά μοντέλα στα περισσότερα benchmarks, το DeepSeek-R1 προκαλεί το OpenAI o1 στη μαθηματική συλλογιστική, και το οικοσύστημα open source έχει παραγάγει εξειδικευμένα μοντέλα που ξεπερνούν τα κλειστά αντίστοιχα σε στενούς τομείς.

Για τις επιχειρήσεις και τους προγραμματιστές, αυτό σημαίνει για πρώτη φορά πραγματική επιλογή. Τα μοντέλα open-weight δεν είναι πλέον εφεδρική λύση· είναι συχνά η πρώτη επιλογή.

Απόρρητο δεδομένων

Το μοντέλο εκτελείται εξ ολοκλήρου στην υποδομή σας. Τα δεδομένα σας δεν εγκαταλείπουν ποτέ το περιβάλλον σας — κρίσιμο για την υγεία, τα νομικά, τα χρηματοοικονομικά και κάθε ρυθμιζόμενο κλάδο.

Κόστος σε κλίμακα

Ένα μόνο cluster A100 αντικαθιστά τα κόστη API ανά token σε όγκο. Σε πάνω από 10 εκατ. αιτήματα τον μήνα, τα μοντέλα ιδιο-φιλοξενίας προσφέρουν συνήθως μείωση κόστους 5–20×.

Προσαρμογή

Fine-tune στον τομέα σας, στο ύφος σας, στα δεδομένα σας. Τα κλειστά API σάς δίνουν μηχανική prompt· τα ανοιχτά βάρη σάς δίνουν πλήρη έλεγχο του μοντέλου.

Η μία πραγματική πρόκληση

Το λειτουργικό βάρος. Η ιδιο-φιλοξενία ενός μοντέλου σημαίνει ότι αναλαμβάνετε εσείς την παροχή υποδομής, τις ενημερώσεις μοντέλων, την παρακολούθηση, τον σχεδιασμό χωρητικότητας και την αντιμετώπιση περιστατικών. Τα κλειστά API τα εξωτερικεύουν όλα αυτά. Το ερώτημα δεν είναι ποτέ «είναι καλύτερο το open source;» — είναι «έχετε τη μηχανική ικανότητα να το λειτουργήσετε αξιόπιστα;»

Το stack του Open Source AI

graph TB
  A["Foundation Models (Llama 4, Mistral Large 3, Qwen 2.5, DeepSeek R2)"] --> B["Fine-tuned / Instruction-tuned Variants"]
  B --> C["Inference Server (vLLM / TGI / Ollama)"]
  C --> D["Orchestration Layer (LangChain, LlamaIndex, CrewAI)"]
  D --> E["Application (RAG, Agents, Chatbot, Code assistant)"]

Κορυφαία μοντέλα Open-Weight

Το τοπίο στις αρχές του 2026. Οι βαθμολογίες MMLU είναι ενδεικτικές — κάντε πάντα benchmark στη συγκεκριμένη εργασία σας πριν επιλέξετε μοντέλο για παραγωγή.

Μοντέλο	Οργ.	Παράμετροι	Πλαίσιο	Άδεια	MMLU	Ιδανικό για
Llama 4 Maverick	Meta	400B (MoE)	1M	Llama 4	87.5	Ανταγωνιστικό στην αιχμή, πολυτροπικό
Llama 4 Scout	Meta	109B (MoE)	10M	Llama 4	79.6	Μακρύ πλαίσιο, αποδοτικό MoE
Llama 4 Behemoth	Meta	2T (MoE, preview)	256K	Llama 4	92.0	Μέγιστη ικανότητα (μοντέλο-δάσκαλος)
Mistral Large 3	Mistral	123B	128K	MRL	84.0	Επιχείρηση, ευρωπαϊκή συμμόρφωση
Mistral Small 3	Mistral	24B	128K	Apache 2.0	81.0	Αποδοτικό, επιτρεπτική άδεια
DeepSeek-R1	DeepSeek	671B (MoE)	128K	MIT	90.8	Συλλογιστική, μαθηματικά, κώδικας
DeepSeek-R1-Distill-70B	DeepSeek	70B	128K	MIT	86.7	Αποδοτική συλλογιστική
Qwen2.5 72B	Alibaba	72B	128K	Qwen License	86.6	Πολύγλωσσο, κωδικοποίηση
Qwen2.5-Coder 32B	Alibaba	32B	128K	Apache 2.0	—	Δημιουργία κώδικα
Gemma 2 27B	Google	27B	8K	Gemma	75.2	Συμπαγές, καλά βελτιστοποιημένο
Phi-4	Microsoft	14B	16K	MIT	84.8	Μικρό αλλά εκπληκτικά ικανό

Κατανόηση των αδειών

Apache 2.0

Η πιο επιτρεπτική

Η πιο επιτρεπτική για εμπορική χρήση. Παραχωρεί δικαιώματα ευρεσιτεχνίας, επιτρέπει τροποποίηση και αναδιανομή. Η Mistral την προτιμά για τα ναυαρχίδα μοντέλα της.

MIT

Πολύ επιτρεπτική

Εξαιρετικά επιτρεπτική, με ελάχιστους περιορισμούς. Η DeepSeek δημοσιεύει υπό MIT, καθιστώντας τα μοντέλα της από τα πιο φιλελεύθερα αδειοδοτημένα κορυφαία μοντέλα.

Llama 4

Υπό όρους

Επιτρεπτική για τις περισσότερες εμπορικές χρήσεις, αλλά απαιτεί συμφωνία άδειας για προϊόντα/υπηρεσίες με > 700 εκατ. μηνιαίους ενεργούς χρήστες. Ίδιοι όροι με το Llama 3.

Open Weight vs Open Source

Βασική έννοια

Σημαντική διάκριση: «open weight» σημαίνει ότι τα βάρη του μοντέλου είναι διαθέσιμα, αλλά ο κώδικας και τα δεδομένα εκπαίδευσης ίσως όχι. Το αληθινό open source (όπως η Mistral) δημοσιεύει και τα δύο.

Εξειδικευμένα μοντέλα

Τα μοντέλα γενικής χρήσης είναι μόνο η αρχή. Το οικοσύστημα open source έχει παραγάγει εξαιρετικά ικανά εξειδικευμένα μοντέλα που ξεπερνούν πολύ μεγαλύτερα γενικά μοντέλα εντός του τομέα τους.

Δημιουργία κώδικα

Qwen2.5-Coder 32B— Κορυφαίος open source coder, ανταγωνιστικός με κορυφαία μοντέλα στα HumanEval και SWE-bench

CodeLlama 70B— Το αφιερωμένο μοντέλο κώδικα της Meta, ισχυρό στο infilling

StarCoder2 15B— Συνεργασία BigCode, ισχυρή υποστήριξη πολλών γλωσσών

DeepSeek-Coder-V2— Αρχιτεκτονική MoE, εξαιρετικό στον αγωνιστικό προγραμματισμό

Μαθηματικά & συλλογιστική

DeepSeek-R1 variants— Συλλογιστική αλυσίδας σκέψης, ισχυρό στα MATH και AIME

QwQ-32B— Το μοντέλο συλλογιστικής της Alibaba, πλησιάζει την ποιότητα του o1

Numina-Math-72B— Ειδικό σε μαθηματικά διαγωνισμών, fine-tuned σε δεδομένα διαγωνισμών

Πολυτροπικά (όραση + κείμενο)

LLaVA-1.6— Ελαφρύ, ευρέως αναπτύξιμο μοντέλο όρασης-γλώσσας

Qwen2-VL 72B— Πολυτροπικό open αιχμής, ισχυρό σε έγγραφα

Phi-3.5-vision— Το συμπαγές μοντέλο όρασης της Microsoft, τρέχει σε συσκευές edge

Embeddings

nomic-embed-text-v1.5— Embeddings Matryoshka, προσαρμόσιμη διάσταση

mxbai-embed-large-v1— Αγγλικά embeddings υψηλής ποιότητας, Apache 2.0

BAAI/bge-m3— Πολύγλωσσο (100+ γλώσσες), dense + sparse + colbert

Re-Rankers

BAAI/bge-reranker-v2-m3— Πολύγλωσσος cross-encoder re-ranker

cross-encoder/ms-marco— Πρότυπο του κλάδου για επαναταξινόμηση αποσπασμάτων σε pipelines RAG

Σημείωση για ευρωπαϊκές επιχειρήσεις

Για τις ευρωπαϊκές επιχειρήσεις, τα μοντέλα της Mistral (αδειοδοτημένα Apache 2.0 για το Mistral Small 3, με έδρα στην ΕΕ, με διαθέσιμες επιλογές φιλοξενίας στην ΕΕ) είναι συχνά η προεπιλεγμένη επιλογή για λόγους συμμόρφωσης και κυριαρχίας δεδομένων. Το Mistral Small 3 και το Mistral Large 3 προσφέρουν επιτρεπτική ή φιλική προς εμπορική χρήση άδεια με σαφή ευρωπαϊκή προέλευση που ικανοποιεί πολλές απαιτήσεις προμηθειών και διαμονής δεδομένων.

Frameworks εκπαίδευσης

Δύο frameworks κυριαρχούν: το PyTorch και το JAX. Εκτός αν έχετε συγκεκριμένο λόγο να επιλέξετε JAX, ξεκινήστε με το PyTorch — το οικοσύστημα, τα εργαλεία και η υποστήριξη της κοινότητας είναι ασυναγώνιστα.

PyTorch

De facto πρότυπο

Δυναμικά γραφήματα υπολογισμού, επιτακτικό στυλ εκτέλεσης και το μεγαλύτερο οικοσύστημα από κάθε framework ML. Χρησιμοποιείται από τη Meta, τη Microsoft, το Hugging Face και τη συντριπτική πλειονότητα της ερευνητικής κοινότητας.

Το μεγαλύτερο οικοσύστημα μοντέλων και βιβλιοθηκών

Ευκολότερο debugging (εγγενώς Python)

Καλύτερη κοινότητα και τεκμηρίωση

Εγγενές FSDP για κατανεμημένη εκπαίδευση

JAX / Flax

Έρευνα & TPU

Το λειτουργικό framework ML της Google με μεταγλώττιση XLA. Διαπρέπει στα TPU, επιτρέπει μετασχηματισμούς συναρτήσεων (grad, jit, vmap, pmap). Τα Flax και Equinox είναι οι κορυφαίες βιβλιοθήκες νευρωνικών δικτύων που χτίζονται πάνω του.

Καλύτερη απόδοση σε TPU

Μεταγλώττιση just-in-time XLA

Λειτουργικοί μετασχηματισμοί (jit, vmap, pmap)

Προτιμώμενο από την έρευνα της Google DeepMind

Βασικές βιβλιοθήκες εκπαίδευσης

transformersby HuggingFace

Φορτώστε, κάντε fine-tune και μοιραστείτε οποιοδήποτε μοντέλο από το Hub. Η κεντρική βιβλιοθήκη του οικοσυστήματος open source AI.

trlby HuggingFace

Βρόχοι εκπαίδευσης επιβλεπόμενου fine-tuning (SFT), RLHF, DPO και GRPO. Η πρότυπη βιβλιοθήκη για εκπαίδευση ευθυγράμμισης.

accelerateby HuggingFace

Ενιαίο επίπεδο αφαίρεσης για εκπαίδευση multi-GPU, multi-node και μικτής ακρίβειας. Γράψτε μία φορά, εκτελέστε παντού.

deepspeedby Microsoft

Στάδια optimizer ZeRO 1/2/3, παραλληλισμός 3D (tensor, pipeline, δεδομένα). Απαραίτητο για την εκπαίδευση πολύ μεγάλων μοντέλων.

FSDPby PyTorch native

Fully Sharded Data Parallel — η εγγενής απάντηση του PyTorch στο DeepSpeed ZeRO. Απλούστερη ενσωμάτωση, συγκρίσιμη απόδοση.

Παράδειγμα εκπαίδευσης SFT (trl)

python

from transformers import AutoTokenizer, AutoModelForCausalLM
from trl import SFTTrainer, SFTConfig
from datasets import load_dataset
import torch

model = AutoModelForCausalLM.from_pretrained(
    "meta-llama/Llama-4-Scout-17B-16E-Instruct",
    torch_dtype=torch.bfloat16,
    device_map="auto",
)
tokenizer = AutoTokenizer.from_pretrained("meta-llama/Llama-4-Scout-17B-16E-Instruct")
dataset = load_dataset("HuggingFaceH4/ultrachat_200k", split="train_sft[:10000]")

trainer = SFTTrainer(
    model=model,
    args=SFTConfig(
        output_dir="./sft-output",
        num_train_epochs=3,
        per_device_train_batch_size=4,
    ),
    train_dataset=dataset,
    processing_class=tokenizer,
)
trainer.train()

Fine-tuning: LoRA & QLoRA

Το πλήρες fine-tuning απαιτεί τόσες GPU όσες και η προεκπαίδευση — απαγορευτικό για τις περισσότερες ομάδες. Οι μέθοδοι fine-tuning αποδοτικού ως προς τις παραμέτρους (PEFT) καθιστούν δυνατή την προσαρμογή κορυφαίων μοντέλων σε μία μόνο GPU.

LoRA: Προσαρμογή Χαμηλής Τάξης

Αντί να ενημερώνει όλα τα βάρη του μοντέλου, το LoRA προσθέτει μικρούς πίνακες προσαρμογέων A και B παράλληλα με παγωμένους πίνακες βαρών. Εκπαιδεύονται μόνο οι προσαρμογείς, μειώνοντας τις εκπαιδεύσιμες παραμέτρους έως και 10.000× για ένα μοντέλο 7B.

W' = W + ΔW = W + AB

όπου A ∈ ℝ^(d×r), B ∈ ℝ^(r×k), r << min(d, k)

Η τάξη r ελέγχει τη χωρητικότητα των προσαρμογέων. Τυπικές τιμές: 8–64. Υψηλότερη τάξη = μεγαλύτερη χωρητικότητα αλλά περισσότερες παράμετροι. Κατά το inference, οι προσαρμογείς μπορούν να συγχωνευθούν στο βασικό μοντέλο για μηδενική επιβάρυνση.

QLoRA: Κβαντισμένο LoRA

Το QLoRA κβαντίζει τα βάρη του βασικού μοντέλου σε 4-bit NF4 (Normal Float 4) και στη συνέχεια εκπαιδεύει προσαρμογείς LoRA σε bfloat16. Αυτό επιτρέπει το fine-tuning ενός μοντέλου 70B σε μόλις 2× GPU A100 80GB — κάτι που κανονικά θα απαιτούσε cluster 16 GPU. Η απώλεια ποιότητας από την κβάντιση είναι ελάχιστη όταν οι προσαρμογείς εκπαιδεύονται σε υψηλότερη ακρίβεια.

Διαμόρφωση LoRA (peft)

python

from peft import LoraConfig, get_peft_model

lora_config = LoraConfig(
    r=16,                    # rank — controls adapter capacity
    lora_alpha=32,           # scaling factor (alpha/r = effective LR)
    target_modules=["q_proj", "v_proj", "k_proj", "o_proj"],
    lora_dropout=0.05,
    bias="none",
    task_type="CAUSAL_LM",
)
model = get_peft_model(model, lora_config)
model.print_trainable_parameters()
# trainable params: 6,815,744 || all params: 8,036,802,560 || trainable%: 0.085

Μέθοδος	Μνήμη GPU (7B)	Εκπαιδεύσιμες παράμετροι	Ποιότητα	Καλύτερη περίπτωση χρήσης
Full Fine-Tuning	~112 GB	100%	Υψηλότερη	Όταν η ποιότητα είναι υψίστης σημασίας και οι GPU άφθονες
LoRA	~16 GB	0.1–1%	Σχεδόν πλήρης	Προσαρμογή ύφους/μορφής, instruction tuning
QLoRA	~6 GB	0.1–1%	95–98% του LoRA	Fine-tuning με περιορισμένους πόρους, 70B σε 2 GPU

DoRA: LoRA με Αποσύνθεση Βαρών

Μια νεότερη παραλλαγή που αποσυνθέτει τους πίνακες βαρών σε συνιστώσες μέτρου και κατεύθυνσης και στη συνέχεια εφαρμόζει LoRA μόνο στη συνιστώσα κατεύθυνσης. Επιτυγχάνει συχνά καλύτερη ποιότητα από το τυπικό LoRA στην ίδια τάξη. Υποστηρίζεται στο peft μέσω use_dora=True.

Fine-tuning vs RAG: Πότε να χρησιμοποιήσετε το καθένα

Χρησιμοποιήστε fine-tuning όταν:

• Προσαρμόζετε το ύφος ή τη μορφή εξόδου
• Διδάσκετε εξειδικευμένο λεξιλόγιο τομέα
• Απαιτείται συνεπής persona ή ύφος
• Παρακολούθηση οδηγιών ειδικών ανά εργασία

Χρησιμοποιήστε RAG όταν:

• Θεμελιώνετε τις απαντήσεις σε συγκεκριμένα έγγραφα
• Η βάση γνώσης ενημερώνεται συχνά
• Απαιτείται απόδοση πηγών
• Μειώνετε τις παραισθήσεις σε πραγματολογικά ερωτήματα

Διακομιστές inference

Μόλις έχετε ένα μοντέλο, πρέπει να το σερβίρετε. Η επιλογή του διακομιστή inference καθορίζει τη ρυθμαπόδοσή σας, την καθυστέρηση και τη λειτουργική πολυπλοκότητα. Για φόρτους παραγωγής, το vLLM είναι η πιο ευρέως υιοθετημένη επιλογή.

Διακομιστής	Γλώσσα	Ιδανικό για	Κβάντιση	Streaming	Άδεια
vLLM	Python	Παραγωγή υψηλής ρυθμαπόδοσης	GPTQ, AWQ, GGUF	✓	Apache 2.0
TGI	Rust/Python	Stack HuggingFace	bitsandbytes, GPTQ	✓	Apache 2.0
Ollama	Go	Τοπική ανάπτυξη	GGUF (llama.cpp)	✓	MIT
llama.cpp	C++	Edge/CPU/Apple Silicon	GGUF all levels	✓	MIT
LMDeploy	Python	Γρήγορο inference + int4	W4A16, W8A8	✓	Apache 2.0
Triton Inference Server	C++	Παραγωγή πολλαπλών frameworks	Backend dependent	✓	BSD

Επεξήγηση του vLLM PagedAttention

Το παραδοσιακό inference δεσμεύει την KV-cache σε μεγάλα συνεχόμενα μπλοκ, σπαταλώντας μνήμη και εμποδίζοντας το batching αιτημάτων με διαφορετικά μήκη ακολουθίας. Το PagedAttention αντιμετωπίζει την KV-cache σαν σελίδες εικονικής μνήμης — τα μπλοκ δεσμεύονται κατ' απαίτηση και μοιράζονται μεταξύ αιτημάτων όπου είναι δυνατόν. Αυτό επιτρέπει το συνεχές batching (νέα αιτήματα εντάσσονται σε εν εξελίξει batches) και προσφέρει 2–4× καλύτερη αξιοποίηση GPU έναντι του απλοϊκού serving.

Εκκίνηση vLLM (API συμβατό με OpenAI)

bash

# Start vLLM OpenAI-compatible server
python -m vllm.entrypoints.openai.api_server \
  --model meta-llama/Llama-4-Scout-17B-16E-Instruct \
  --dtype bfloat16 \
  --max-model-len 8192 \
  --port 8000

python

from openai import OpenAI

# vLLM exposes an OpenAI-compatible API
client = OpenAI(base_url="http://localhost:8000/v1", api_key="token")

response = client.chat.completions.create(
    model="meta-llama/Llama-4-Scout-17B-16E-Instruct",
    messages=[{"role": "user", "content": "Explain attention mechanisms"}],
    temperature=0.7,
    max_tokens=512,
)
print(response.choices[0].message.content)

Τοπικό inference

Για ανάπτυξη, απομονωμένα (air-gapped) περιβάλλοντα ή προσωπική χρήση, τα εργαλεία τοπικού inference σάς επιτρέπουν να εκτελείτε μοντέλα σε καταναλωτικό υλικό χωρίς λογαριασμό cloud. Το Ollama είναι το ευκολότερο σημείο εκκίνησης.

Ollama

Διαχειρίζεται τις λήψεις μοντέλων, την κβάντιση GGUF και εκθέτει ένα τοπικό API συμβατό με OpenAI. Δεν απαιτείται περιβάλλον Python.

bash

# Install Ollama
curl -fsSL https://ollama.ai/install.sh | sh

# Λήψη και εκτέλεση μοντέλων
ollama run llama4:scout         # ~23 GB GGUF Q4_K_M (MoE, αποδοτικό)
ollama run mistral-small3       # ~14 GB GGUF Q4
ollama run deepseek-r1:70b      # ~40 GB
ollama run qwen2.5-coder:7b     # Ειδικό σε κώδικα

# Λίστα ληφθέντων μοντέλων
ollama list

Επίπεδα κβάντισης GGUF

Μορφή	Bits/βάρος	Ποιότητα	Συνιστάται για
Q2_K	2-bit	Χαμηλή	Απόλυτο ελάχιστο RAM
Q4_K_M	4-bit	Καλή	Καλύτερη ισορροπία ποιότητας/μεγέθους — συνιστώμενη προεπιλογή
Q5_K_M	5-bit	Πολύ καλή	Όταν έχετε επιπλέον RAM διαθέσιμη
Q6_K	6-bit	Εξαιρετική	Σχεδόν χωρίς απώλειες, μεγάλη διαθέσιμη RAM
Q8_0	8-bit	Σχεδόν χωρίς απώλειες	Ανάπτυξη, συστήματα με πολλή RAM
F16	16-bit	Χωρίς απώλειες	Μέγιστη ποιότητα, μόνο GPU διακομιστή

Οδηγός υλικού

Υλικό	Συνιστώμενο μοντέλο
MacBook M2/M3/M4 (16GB)	8B Q4_K_M
MacBook M2 Pro (32GB)	13-14B Q4_K_M
MacBook M3 Max (64GB)	70B Q4_K_M
RTX 3090 24GB	13B Q8_0 or 30B Q4
A100 80GB	70B FP16 or Llama 4 Scout Q4
2× A100 80GB	Llama 4 Maverick Q4 or 70B FP16

LM Studio

Διαπλατφορμικό GUI για τοπικά μοντέλα. Περιήγηση και λήψη από το HuggingFace, τοπικός διακομιστής συμβατός με OpenAI, παρακολούθηση χρήσης υλικού. Ιδανικό για χρήστες χωρίς γνώσεις προγραμματισμού.

Jan.ai

Εφαρμογή LLM επιφάνειας εργασίας με προτεραιότητα στο απόρρητο. 100% εκτός σύνδεσης, open source (AGPL), υποστηρίζει μοντέλα συμβατά με Ollama. Φτιαγμένη για χρήστες που θέλουν μηδενική τηλεμετρία.

Βάσεις δεδομένων διανυσμάτων

Οι βάσεις δεδομένων διανυσμάτων είναι η ραχοκοκαλιά των συστημάτων RAG. Η σωστή επιλογή εξαρτάται από την κλίμακα, την υπάρχουσα υποδομή και το αν χρειάζεστε φιλτράρισμα μεταδεδομένων παράλληλα με την αναζήτηση διανυσμάτων.

Βάση δεδομένων	Τύπος	Κλίμακα	Άδεια	Μοναδικό χαρακτηριστικό
pgvector	PostgreSQL extension	Μεσαία	Apache 2.0	SQL + διανύσματα, καμία νέα υποδομή
Chroma	Embedded/server	Μικρή-Μεσαία	Apache 2.0	Απλούστερο API, εξαιρετικό για prototyping
Qdrant	Rust server	Μεγάλη	Apache 2.0	Φιλτράρισμα payload, γρήγορο
Weaviate	Go server	Μεγάλη	BSD	Υβριδική αναζήτηση, GraphQL
Milvus	C++ server	Πολύ μεγάλη	Apache 2.0	Κλίμακα δισεκατομμυρίων, cloud-native
LanceDB	Embedded	Μεσαία	Apache 2.0	Arrow-native, serverless

Ξεκινήστε με το pgvector

Αν ήδη εκτελείτε PostgreSQL, το pgvector προσθέτει αναζήτηση διανυσμάτων χωρίς καμία νέα υποδομή. Διαχειρίζεται άνετα εκατομμύρια διανύσματα με δείκτες IVFFlat ή HNSW — υπεραρκετά για τα περισσότερα συστήματα RAG σε παραγωγή.

Γρήγορη εκκίνηση pgvector

sql

-- Enable the extension
CREATE EXTENSION IF NOT EXISTS vector;

-- Create table with vector column
CREATE TABLE documents (
    id        bigserial PRIMARY KEY,
    content   text,
    embedding vector(1536)    -- dimension matches your embedding model
);

-- Create approximate nearest neighbor index (IVFFlat)
CREATE INDEX ON documents USING ivfflat (embedding vector_cosine_ops)
  WITH (lists = 100);

-- Alternatively, HNSW (better recall, slower build)
-- CREATE INDEX ON documents USING hnsw (embedding vector_cosine_ops);

-- Semantic similarity query
SELECT content, 1 - (embedding <=> '[0.1, 0.2, ...]'::vector) AS similarity
FROM documents
ORDER BY embedding <=> '[0.1, 0.2, ...]'::vector
LIMIT 5;

Ενορχήστρωση & πράκτορες

Τα frameworks ενορχήστρωσης συνδέουν το μοντέλο σας με εργαλεία, μνήμη και pipelines πολλαπλών βημάτων. Το τοπίο είναι πυκνό — επιλέξτε με βάση την περίπτωση χρήσης σας, όχι μόνο τα αστέρια του GitHub.

Framework	Αστέρια GitHub	Ιδανικό για	Επίπεδο αφαίρεσης
LangChain	90k+	Pipelines γενικής χρήσης	Υψηλό
LangGraph	10k+	Ροές εργασίας πρακτόρων με κατάσταση	Μεσαίο
LlamaIndex	35k+	Εφαρμογές με έντονο RAG	Μεσαίο
CrewAI	20k+	Συνεργασία πολλαπλών πρακτόρων	Υψηλό
AutoGen	30k+	Συνομιλιακοί πολλαπλοί πράκτορες	Μεσαίο
DSPy	20k+	Βελτιστοποίηση prompt	Χαμηλό-Μεσαίο
Semantic Kernel	20k+	Ενσωμάτωση .NET/επιχειρήσεων	Υψηλό
Haystack	15k+	Pipelines NLP, ανοιχτά	Μεσαίο

DSPy: Βελτιστοποίηση prompt

Το DSPy υιοθετεί διαφορετική φιλοσοφία από άλλα frameworks: αντί να φτιάχνετε χειροκίνητα πρότυπα prompt, ορίζετε μια υπογραφή εργασίας (είσοδοι, έξοδοι και περιορισμοί) και μερικά παραδείγματα με ετικέτα, και στη συνέχεια το DSPy βελτιστοποιεί αυτόματα τα prompts με αλγορίθμους όπως το OPRO ή το BootstrapFewShot. Αυτό είναι ιδιαίτερα ισχυρό με μικρότερα μοντέλα open source που είναι ευαίσθητα στη διατύπωση των prompt — αφήστε τον βελτιστοποιητή να βρει τι λειτουργεί αντί να επαναλαμβάνετε χειροκίνητα.

Αυτόματη επιλογή few-shotTuning οδηγιών promptΑλυσίδες συλλογιστικής πολλαπλών βημάτωνΛειτουργεί με οποιοδήποτε LLM

Εργαλεία αξιολόγησης

Η αξιολόγηση είναι το σημείο όπου τα περισσότερα έργα open source AI αποτυγχάνουν στην παραγωγή. Πριν αναπτύξετε οποιοδήποτε μοντέλο, ορίστε μετρήσιμα κριτήρια ποιότητας και καθιερώστε μια βάση αναφοράς.

lm-evaluation-harness

by EleutherAI

Ο πρότυπος εκτελεστής benchmark για μοντέλα open source. Εκτελεί MMLU, HellaSwag, ARC, WinoGrande και 60+ άλλα benchmarks. Χρησιμοποιείται για τη δημιουργία των βαθμολογιών του Open LLM Leaderboard.

OpenCompass

by Shanghai AI Lab

Ολοκληρωμένη πλατφόρμα αξιολόγησης με 100+ benchmarks, με ιδιαίτερα ισχυρή κάλυψη κινεζικών benchmarks και ασιατικών γλωσσικών μοντέλων.

Ragas

by Explodinggradients

Framework αξιολόγησης ειδικό για RAG. Μετρά την ανάκληση πλαισίου, την πιστότητα, τη συνάφεια απαντήσεων και την ακρίβεια πλαισίου με τη μεθοδολογία LLM-ως-κριτή.

DeepEval

by Confident AI

Framework αξιολόγησης σε στυλ unit-test. Γράψτε ισχυρισμούς αξιολόγησης σε Python, ενσωματώστε τους στο CI/CD, παρακολουθήστε μετρικές ανά εκδόσεις μοντέλων.

Evals

by OpenAI

Η μορφή αξιολόγησης της OpenAI έχει γίνει πρότυπο του κλάδου. Πολλά έργα open source υιοθετούν την ίδια δομή eval για διαλειτουργικότητα.

HELMET

by Princeton

Ολιστική αξιολόγηση γλωσσικών μοντέλων μεγάλου πλαισίου. Κρίσιμη για μοντέλα που διεκδικούν μεγάλα παράθυρα πλαισίου — ελέγχει την πραγματική ανάκληση και συλλογιστική σε μεγάλο πλαίσιο.

Παράδειγμα αξιολόγησης RAG με Ragas

python

from ragas import evaluate
from ragas.metrics import faithfulness, answer_relevancy, context_recall
from datasets import Dataset

eval_data = Dataset.from_dict({
    "question": ["What is LoRA?"],
    "answer": ["LoRA adds low-rank adapter matrices to frozen weights..."],
    "contexts": [["Low-Rank Adaptation adds trainable matrices A and B..."]],
    "ground_truth": ["LoRA is a parameter-efficient fine-tuning method..."],
})

result = evaluate(
    eval_data,
    metrics=[faithfulness, answer_relevancy, context_recall]
)
print(result)
# {'faithfulness': 0.96, 'answer_relevancy': 0.89, 'context_recall': 0.92}

Επιλογή του stack σας

Δεν υπάρχει καθολικά σωστή απάντηση. Δουλέψτε αυτές τις ερωτήσεις με τη σειρά — κάθε απάντηση περιορίζει σημαντικά τις επιλογές σας.

1. Περιορισμοί απορρήτου;

Αν τα δεδομένα δεν μπορούν να εγκαταλείψουν την υποδομή σας, βρίσκεστε εξ ορισμού στο μονοπάτι αποκλειστικά open source. Αυτό αποκλείει αμέσως κάθε διαχειριζόμενη υπηρεσία API. Διαστασιολογήστε πρώτα την υποδομή σας.

2. Ποιος είναι ο όγκος αιτημάτων σας;

< 1K αιτήματα/ημέρα: το Ollama σε ένα μηχάνημα αρκεί. 1K–100K/ημέρα: vLLM σε έναν κόμβο A100. > 100K/ημέρα: cluster vLLM ή TGI πίσω από εξισορροπητή φορτίου. Σε πολύ υψηλούς όγκους, η εξοικονόμηση έναντι της πρόσβασης API αποσβένει την υποδομή μέσα σε εβδομάδες.

3. Προϋπολογισμός RAM GPU;

Πρόχειρος οδηγός: μοντέλο 7B ≈ 14 GB FP16 (ή 5–6 GB Q4)· 13B ≈ 26 GB· 70B ≈ 140 GB FP16 (ή 40 GB Q4)· 405B ≈ 810 GB FP16 (ή 200 GB Q4). Προσθέστε 20% επιβάρυνση για την KV-cache. Το fine-tuning QLoRA χρειάζεται ~1,5× τη μνήμη inference.

4. Ποια είναι η κύρια εργασία σας;

Γενική συνομιλία → Llama 4 Scout. Δημιουργία κώδικα → Qwen2.5-Coder. Συλλογιστική/μαθηματικά → DeepSeek-R1. Πολύγλωσσο → Qwen2.5 72B. Q&A εγγράφων → Mistral Small 3 + pgvector. Κάθε τομέας έχει σαφή νικητή — μη χρησιμοποιείτε γενικό μοντέλο όταν υπάρχει ειδικό.

5. Χρειάζεστε fine-tuning;

Αλλαγές ύφους και μορφής → LoRA (γρήγορο, φθηνό). Γνώση ειδική ανά τομέα → QLoRA + SFT στο corpus σας. Βελτίωση συλλογιστικής → GRPO ή DPO σε δεδομένα προτίμησης. Αν η συμπεριφορά του βασικού μοντέλου είναι αρκετά κοντά με prompting, παραλείψτε εντελώς το fine-tuning.

Συνιστώμενα stacks εκκίνησης

Περίπτωση χρήσης	Μοντέλο	Serving	Ενορχήστρωση	Βάση διανυσμάτων
Εσωτερικό chatbot	Llama 4 Scout	vLLM	LangChain	pgvector
Βοηθός κώδικα	Qwen2.5-Coder 7B	Ollama	Claude Code	—
Q&A εγγράφων	Mistral Small 3	vLLM	LlamaIndex	Qdrant
Ροή εργασίας πολλαπλών πρακτόρων	Llama 4 Scout	vLLM	LangGraph	pgvector
Εργασίες συλλογιστικής	DeepSeek-R1-Distill 7B	Ollama/vLLM	Custom	—
Κρίσιμο ως προς το απόρρητο	Llama 4 Scout	Ollama (air-gapped)	Custom	Chroma

Χρειάζεστε βοήθεια για την επιλογή και ανάπτυξη του open source AI stack σας;

Η επιλογή του σωστού μοντέλου και της σωστής υποδομής για την περίπτωσή σας απαιτεί εξισορρόπηση απόδοσης, κόστους, συμμόρφωσης και λειτουργικής ωριμότητας. Βοηθάμε τις επιχειρήσεις να πλοηγηθούν σε αυτές τις αποφάσεις και να υλοποιήσουν συστήματα open source AI που είναι αξιόπιστα, ιδιωτικά και οικονομικά αποδοτικά σε κλίμακα.

Δείτε τις υπηρεσίες υποδομής AI

Σχετικοί πόροι

Οδηγός υλοποίησης RAG σε παραγωγή

Δημιουργήστε συστήματα retrieval-augmented generation που λειτουργούν σε παραγωγή με βάσεις δεδομένων διανυσμάτων open source

Οδηγός υλοποίησης πρακτόρων AI

Δημιουργήστε πράκτορες παραγωγής με LLM open source, από την αρχιτεκτονική έως την ανάπτυξη

Οδηγός βελτιστοποίησης κόστους LLM

Μειώστε το κόστος inference κατά 70–90% μέσω επιλογής μοντέλων, κβάντισης και στρατηγικών caching

Πόροι/Οδηγός Τοπίου

Open Source AI

Τοπίο Open Source AI 2026

11 Ενότητες

45 λεπτά ανάγνωσης

Περιλαμβάνονται παραδείγματα κώδικα

March 2026

Γιατί έχει σημασία το Open Source AI

Απόρρητο δεδομένων

Κόστος σε κλίμακα

Προσαρμογή

Η μία πραγματική πρόκληση

Το stack του Open Source AI

graph TB
  A["Foundation Models (Llama 4, Mistral Large 3, Qwen 2.5, DeepSeek R2)"] --> B["Fine-tuned / Instruction-tuned Variants"]
  B --> C["Inference Server (vLLM / TGI / Ollama)"]
  C --> D["Orchestration Layer (LangChain, LlamaIndex, CrewAI)"]
  D --> E["Application (RAG, Agents, Chatbot, Code assistant)"]

Κορυφαία μοντέλα Open-Weight

Μοντέλο	Οργ.	Παράμετροι	Πλαίσιο	Άδεια	MMLU	Ιδανικό για
Llama 4 Maverick	Meta	400B (MoE)	1M	Llama 4	87.5	Ανταγωνιστικό στην αιχμή, πολυτροπικό
Llama 4 Scout	Meta	109B (MoE)	10M	Llama 4	79.6	Μακρύ πλαίσιο, αποδοτικό MoE
Llama 4 Behemoth	Meta	2T (MoE, preview)	256K	Llama 4	92.0	Μέγιστη ικανότητα (μοντέλο-δάσκαλος)
Mistral Large 3	Mistral	123B	128K	MRL	84.0	Επιχείρηση, ευρωπαϊκή συμμόρφωση
Mistral Small 3	Mistral	24B	128K	Apache 2.0	81.0	Αποδοτικό, επιτρεπτική άδεια
DeepSeek-R1	DeepSeek	671B (MoE)	128K	MIT	90.8	Συλλογιστική, μαθηματικά, κώδικας
DeepSeek-R1-Distill-70B	DeepSeek	70B	128K	MIT	86.7	Αποδοτική συλλογιστική
Qwen2.5 72B	Alibaba	72B	128K	Qwen License	86.6	Πολύγλωσσο, κωδικοποίηση
Qwen2.5-Coder 32B	Alibaba	32B	128K	Apache 2.0	—	Δημιουργία κώδικα
Gemma 2 27B	Google	27B	8K	Gemma	75.2	Συμπαγές, καλά βελτιστοποιημένο
Phi-4	Microsoft	14B	16K	MIT	84.8	Μικρό αλλά εκπληκτικά ικανό

Κατανόηση των αδειών

Apache 2.0

Η πιο επιτρεπτική

MIT

Πολύ επιτρεπτική

Llama 4

Υπό όρους

Open Weight vs Open Source

Βασική έννοια

Εξειδικευμένα μοντέλα

Δημιουργία κώδικα

Qwen2.5-Coder 32B— Κορυφαίος open source coder, ανταγωνιστικός με κορυφαία μοντέλα στα HumanEval και SWE-bench

CodeLlama 70B— Το αφιερωμένο μοντέλο κώδικα της Meta, ισχυρό στο infilling

StarCoder2 15B— Συνεργασία BigCode, ισχυρή υποστήριξη πολλών γλωσσών

DeepSeek-Coder-V2— Αρχιτεκτονική MoE, εξαιρετικό στον αγωνιστικό προγραμματισμό

Μαθηματικά & συλλογιστική

DeepSeek-R1 variants— Συλλογιστική αλυσίδας σκέψης, ισχυρό στα MATH και AIME

QwQ-32B— Το μοντέλο συλλογιστικής της Alibaba, πλησιάζει την ποιότητα του o1

Numina-Math-72B— Ειδικό σε μαθηματικά διαγωνισμών, fine-tuned σε δεδομένα διαγωνισμών

Πολυτροπικά (όραση + κείμενο)

LLaVA-1.6— Ελαφρύ, ευρέως αναπτύξιμο μοντέλο όρασης-γλώσσας

Qwen2-VL 72B— Πολυτροπικό open αιχμής, ισχυρό σε έγγραφα

Phi-3.5-vision— Το συμπαγές μοντέλο όρασης της Microsoft, τρέχει σε συσκευές edge

Embeddings

nomic-embed-text-v1.5— Embeddings Matryoshka, προσαρμόσιμη διάσταση

mxbai-embed-large-v1— Αγγλικά embeddings υψηλής ποιότητας, Apache 2.0

BAAI/bge-m3— Πολύγλωσσο (100+ γλώσσες), dense + sparse + colbert

Re-Rankers

BAAI/bge-reranker-v2-m3— Πολύγλωσσος cross-encoder re-ranker

cross-encoder/ms-marco— Πρότυπο του κλάδου για επαναταξινόμηση αποσπασμάτων σε pipelines RAG

Σημείωση για ευρωπαϊκές επιχειρήσεις

Frameworks εκπαίδευσης

PyTorch

De facto πρότυπο

Το μεγαλύτερο οικοσύστημα μοντέλων και βιβλιοθηκών

Ευκολότερο debugging (εγγενώς Python)

Καλύτερη κοινότητα και τεκμηρίωση

Εγγενές FSDP για κατανεμημένη εκπαίδευση

JAX / Flax

Έρευνα & TPU

Καλύτερη απόδοση σε TPU

Μεταγλώττιση just-in-time XLA

Λειτουργικοί μετασχηματισμοί (jit, vmap, pmap)

Προτιμώμενο από την έρευνα της Google DeepMind

Βασικές βιβλιοθήκες εκπαίδευσης

transformersby HuggingFace

trlby HuggingFace

Βρόχοι εκπαίδευσης επιβλεπόμενου fine-tuning (SFT), RLHF, DPO και GRPO. Η πρότυπη βιβλιοθήκη για εκπαίδευση ευθυγράμμισης.

accelerateby HuggingFace

Ενιαίο επίπεδο αφαίρεσης για εκπαίδευση multi-GPU, multi-node και μικτής ακρίβειας. Γράψτε μία φορά, εκτελέστε παντού.

deepspeedby Microsoft

FSDPby PyTorch native

Fully Sharded Data Parallel — η εγγενής απάντηση του PyTorch στο DeepSpeed ZeRO. Απλούστερη ενσωμάτωση, συγκρίσιμη απόδοση.

Παράδειγμα εκπαίδευσης SFT (trl)

python

from transformers import AutoTokenizer, AutoModelForCausalLM
from trl import SFTTrainer, SFTConfig
from datasets import load_dataset
import torch

model = AutoModelForCausalLM.from_pretrained(
    "meta-llama/Llama-4-Scout-17B-16E-Instruct",
    torch_dtype=torch.bfloat16,
    device_map="auto",
)
tokenizer = AutoTokenizer.from_pretrained("meta-llama/Llama-4-Scout-17B-16E-Instruct")
dataset = load_dataset("HuggingFaceH4/ultrachat_200k", split="train_sft[:10000]")

trainer = SFTTrainer(
    model=model,
    args=SFTConfig(
        output_dir="./sft-output",
        num_train_epochs=3,
        per_device_train_batch_size=4,
    ),
    train_dataset=dataset,
    processing_class=tokenizer,
)
trainer.train()

Fine-tuning: LoRA & QLoRA

LoRA: Προσαρμογή Χαμηλής Τάξης

W' = W + ΔW = W + AB

όπου A ∈ ℝ^(d×r), B ∈ ℝ^(r×k), r << min(d, k)

QLoRA: Κβαντισμένο LoRA

Διαμόρφωση LoRA (peft)

python

from peft import LoraConfig, get_peft_model

lora_config = LoraConfig(
    r=16,                    # rank — controls adapter capacity
    lora_alpha=32,           # scaling factor (alpha/r = effective LR)
    target_modules=["q_proj", "v_proj", "k_proj", "o_proj"],
    lora_dropout=0.05,
    bias="none",
    task_type="CAUSAL_LM",
)
model = get_peft_model(model, lora_config)
model.print_trainable_parameters()
# trainable params: 6,815,744 || all params: 8,036,802,560 || trainable%: 0.085

Μέθοδος	Μνήμη GPU (7B)	Εκπαιδεύσιμες παράμετροι	Ποιότητα	Καλύτερη περίπτωση χρήσης
Full Fine-Tuning	~112 GB	100%	Υψηλότερη	Όταν η ποιότητα είναι υψίστης σημασίας και οι GPU άφθονες
LoRA	~16 GB	0.1–1%	Σχεδόν πλήρης	Προσαρμογή ύφους/μορφής, instruction tuning
QLoRA	~6 GB	0.1–1%	95–98% του LoRA	Fine-tuning με περιορισμένους πόρους, 70B σε 2 GPU

DoRA: LoRA με Αποσύνθεση Βαρών

Fine-tuning vs RAG: Πότε να χρησιμοποιήσετε το καθένα

Χρησιμοποιήστε fine-tuning όταν:

• Προσαρμόζετε το ύφος ή τη μορφή εξόδου
• Διδάσκετε εξειδικευμένο λεξιλόγιο τομέα
• Απαιτείται συνεπής persona ή ύφος
• Παρακολούθηση οδηγιών ειδικών ανά εργασία

Χρησιμοποιήστε RAG όταν:

• Θεμελιώνετε τις απαντήσεις σε συγκεκριμένα έγγραφα
• Η βάση γνώσης ενημερώνεται συχνά
• Απαιτείται απόδοση πηγών
• Μειώνετε τις παραισθήσεις σε πραγματολογικά ερωτήματα

Διακομιστές inference

Διακομιστής	Γλώσσα	Ιδανικό για	Κβάντιση	Streaming	Άδεια
vLLM	Python	Παραγωγή υψηλής ρυθμαπόδοσης	GPTQ, AWQ, GGUF	✓	Apache 2.0
TGI	Rust/Python	Stack HuggingFace	bitsandbytes, GPTQ	✓	Apache 2.0
Ollama	Go	Τοπική ανάπτυξη	GGUF (llama.cpp)	✓	MIT
llama.cpp	C++	Edge/CPU/Apple Silicon	GGUF all levels	✓	MIT
LMDeploy	Python	Γρήγορο inference + int4	W4A16, W8A8	✓	Apache 2.0
Triton Inference Server	C++	Παραγωγή πολλαπλών frameworks	Backend dependent	✓	BSD

Επεξήγηση του vLLM PagedAttention

Εκκίνηση vLLM (API συμβατό με OpenAI)

bash

# Start vLLM OpenAI-compatible server
python -m vllm.entrypoints.openai.api_server \
  --model meta-llama/Llama-4-Scout-17B-16E-Instruct \
  --dtype bfloat16 \
  --max-model-len 8192 \
  --port 8000

python

from openai import OpenAI

# vLLM exposes an OpenAI-compatible API
client = OpenAI(base_url="http://localhost:8000/v1", api_key="token")

response = client.chat.completions.create(
    model="meta-llama/Llama-4-Scout-17B-16E-Instruct",
    messages=[{"role": "user", "content": "Explain attention mechanisms"}],
    temperature=0.7,
    max_tokens=512,
)
print(response.choices[0].message.content)

Τοπικό inference

Ollama

bash

# Install Ollama
curl -fsSL https://ollama.ai/install.sh | sh

# Λήψη και εκτέλεση μοντέλων
ollama run llama4:scout         # ~23 GB GGUF Q4_K_M (MoE, αποδοτικό)
ollama run mistral-small3       # ~14 GB GGUF Q4
ollama run deepseek-r1:70b      # ~40 GB
ollama run qwen2.5-coder:7b     # Ειδικό σε κώδικα

# Λίστα ληφθέντων μοντέλων
ollama list

Επίπεδα κβάντισης GGUF

Μορφή	Bits/βάρος	Ποιότητα	Συνιστάται για
Q2_K	2-bit	Χαμηλή	Απόλυτο ελάχιστο RAM
Q4_K_M	4-bit	Καλή	Καλύτερη ισορροπία ποιότητας/μεγέθους — συνιστώμενη προεπιλογή
Q5_K_M	5-bit	Πολύ καλή	Όταν έχετε επιπλέον RAM διαθέσιμη
Q6_K	6-bit	Εξαιρετική	Σχεδόν χωρίς απώλειες, μεγάλη διαθέσιμη RAM
Q8_0	8-bit	Σχεδόν χωρίς απώλειες	Ανάπτυξη, συστήματα με πολλή RAM
F16	16-bit	Χωρίς απώλειες	Μέγιστη ποιότητα, μόνο GPU διακομιστή

Οδηγός υλικού

Υλικό	Συνιστώμενο μοντέλο
MacBook M2/M3/M4 (16GB)	8B Q4_K_M
MacBook M2 Pro (32GB)	13-14B Q4_K_M
MacBook M3 Max (64GB)	70B Q4_K_M
RTX 3090 24GB	13B Q8_0 or 30B Q4
A100 80GB	70B FP16 or Llama 4 Scout Q4
2× A100 80GB	Llama 4 Maverick Q4 or 70B FP16

LM Studio

Jan.ai

Βάσεις δεδομένων διανυσμάτων

Βάση δεδομένων	Τύπος	Κλίμακα	Άδεια	Μοναδικό χαρακτηριστικό
pgvector	PostgreSQL extension	Μεσαία	Apache 2.0	SQL + διανύσματα, καμία νέα υποδομή
Chroma	Embedded/server	Μικρή-Μεσαία	Apache 2.0	Απλούστερο API, εξαιρετικό για prototyping
Qdrant	Rust server	Μεγάλη	Apache 2.0	Φιλτράρισμα payload, γρήγορο
Weaviate	Go server	Μεγάλη	BSD	Υβριδική αναζήτηση, GraphQL
Milvus	C++ server	Πολύ μεγάλη	Apache 2.0	Κλίμακα δισεκατομμυρίων, cloud-native
LanceDB	Embedded	Μεσαία	Apache 2.0	Arrow-native, serverless

Ξεκινήστε με το pgvector

Γρήγορη εκκίνηση pgvector

sql

-- Enable the extension
CREATE EXTENSION IF NOT EXISTS vector;

-- Create table with vector column
CREATE TABLE documents (
    id        bigserial PRIMARY KEY,
    content   text,
    embedding vector(1536)    -- dimension matches your embedding model
);

-- Create approximate nearest neighbor index (IVFFlat)
CREATE INDEX ON documents USING ivfflat (embedding vector_cosine_ops)
  WITH (lists = 100);

-- Alternatively, HNSW (better recall, slower build)
-- CREATE INDEX ON documents USING hnsw (embedding vector_cosine_ops);

-- Semantic similarity query
SELECT content, 1 - (embedding <=> '[0.1, 0.2, ...]'::vector) AS similarity
FROM documents
ORDER BY embedding <=> '[0.1, 0.2, ...]'::vector
LIMIT 5;

Ενορχήστρωση & πράκτορες

Framework	Αστέρια GitHub	Ιδανικό για	Επίπεδο αφαίρεσης
LangChain	90k+	Pipelines γενικής χρήσης	Υψηλό
LangGraph	10k+	Ροές εργασίας πρακτόρων με κατάσταση	Μεσαίο
LlamaIndex	35k+	Εφαρμογές με έντονο RAG	Μεσαίο
CrewAI	20k+	Συνεργασία πολλαπλών πρακτόρων	Υψηλό
AutoGen	30k+	Συνομιλιακοί πολλαπλοί πράκτορες	Μεσαίο
DSPy	20k+	Βελτιστοποίηση prompt	Χαμηλό-Μεσαίο
Semantic Kernel	20k+	Ενσωμάτωση .NET/επιχειρήσεων	Υψηλό
Haystack	15k+	Pipelines NLP, ανοιχτά	Μεσαίο

DSPy: Βελτιστοποίηση prompt

Αυτόματη επιλογή few-shotTuning οδηγιών promptΑλυσίδες συλλογιστικής πολλαπλών βημάτωνΛειτουργεί με οποιοδήποτε LLM

Εργαλεία αξιολόγησης

lm-evaluation-harness

by EleutherAI

OpenCompass

by Shanghai AI Lab

Ragas

by Explodinggradients

DeepEval

by Confident AI

Evals

by OpenAI

HELMET

by Princeton

Παράδειγμα αξιολόγησης RAG με Ragas

python

from ragas import evaluate
from ragas.metrics import faithfulness, answer_relevancy, context_recall
from datasets import Dataset

eval_data = Dataset.from_dict({
    "question": ["What is LoRA?"],
    "answer": ["LoRA adds low-rank adapter matrices to frozen weights..."],
    "contexts": [["Low-Rank Adaptation adds trainable matrices A and B..."]],
    "ground_truth": ["LoRA is a parameter-efficient fine-tuning method..."],
})

result = evaluate(
    eval_data,
    metrics=[faithfulness, answer_relevancy, context_recall]
)
print(result)
# {'faithfulness': 0.96, 'answer_relevancy': 0.89, 'context_recall': 0.92}

Επιλογή του stack σας

1. Περιορισμοί απορρήτου;

2. Ποιος είναι ο όγκος αιτημάτων σας;

3. Προϋπολογισμός RAM GPU;

4. Ποια είναι η κύρια εργασία σας;

5. Χρειάζεστε fine-tuning;

Συνιστώμενα stacks εκκίνησης

Περίπτωση χρήσης	Μοντέλο	Serving	Ενορχήστρωση	Βάση διανυσμάτων
Εσωτερικό chatbot	Llama 4 Scout	vLLM	LangChain	pgvector
Βοηθός κώδικα	Qwen2.5-Coder 7B	Ollama	Claude Code	—
Q&A εγγράφων	Mistral Small 3	vLLM	LlamaIndex	Qdrant
Ροή εργασίας πολλαπλών πρακτόρων	Llama 4 Scout	vLLM	LangGraph	pgvector
Εργασίες συλλογιστικής	DeepSeek-R1-Distill 7B	Ollama/vLLM	Custom	—
Κρίσιμο ως προς το απόρρητο	Llama 4 Scout	Ollama (air-gapped)	Custom	Chroma

Χρειάζεστε βοήθεια για την επιλογή και ανάπτυξη του open source AI stack σας;

Δείτε τις υπηρεσίες υποδομής AI

Σχετικοί πόροι

Οδηγός υλοποίησης RAG σε παραγωγή

Δημιουργήστε συστήματα retrieval-augmented generation που λειτουργούν σε παραγωγή με βάσεις δεδομένων διανυσμάτων open source

Οδηγός υλοποίησης πρακτόρων AI

Δημιουργήστε πράκτορες παραγωγής με LLM open source, από την αρχιτεκτονική έως την ανάπτυξη

Οδηγός βελτιστοποίησης κόστους LLM

Μειώστε το κόστος inference κατά 70–90% μέσω επιλογής μοντέλων, κβάντισης και στρατηγικών caching

Expert Guide: Starcoder2 & LoRA Target Modules 2024 | Hyperion Consulting