Ένας πλήρης οδηγός για να διδάξετε νέες δεξιότητες σε μοντέλα AI: supervised fine-tuning (SFT), LoRA/QLoRA, RLHF, DPO, GRPO, απόσταξη μοντέλων, συγχώνευση μοντέλων και αξιολόγηση. Από την ιδέα έως την παραγωγή — με λειτουργικό κώδικα σε κάθε βήμα.
Η προεκπαίδευση δίνει σε ένα μοντέλο ευρεία γνώση του κόσμου, αλλά μία μόνο δεξιότητα: την πρόβλεψη του επόμενου token. Το μοντέλο έχει δει Wikipedia, κώδικα, βιβλία και τον ιστό — αλλά δεν ξέρει να είναι χρήσιμο, να ακολουθεί οδηγίες ή να αρνείται επικίνδυνα αιτήματα. Το fine-tuning είναι η διαδικασία διδασκαλίας αυτών των συμπεριφορών μετά την προεκπαίδευση.
Ο κλάδος έχει συγκλίνει σε μια τυπική σκάλα εκπαίδευσης που ακολουθούν όλα τα μεγάλα μοντέλα αιχμής (GPT-4o, Claude Opus 4.6, Llama 4, Gemini 2.5). Κάθε στάδιο βασίζεται στο προηγούμενο — δεν μπορείτε να παραλείψετε το SFT και να πάτε απευθείας στο RLHF.
graph LR A[Raw Text Corpus] -->|Pretraining cross-entropy| B[Base Model] B -->|Supervised Fine-Tuning| C[Instruction-Following Model] C -->|RLHF / DPO / GRPO| D[Aligned Model] D -->|Evaluation & Red-teaming| E[Production Model]
Αυτο-εποπτευόμενη πρόβλεψη επόμενου token σε τεράστια σώματα κειμένων. Κωδικοποιεί τη γνώση του κόσμου.
Supervised fine-tuning σε ζεύγη οδηγίας-απάντησης. Διδάσκει στο μοντέλο να είναι χρήσιμο.
RLHF, DPO ή GRPO σε δεδομένα ανθρώπινων προτιμήσεων. Καθιστά τις εξόδους ασφαλείς και προτιμώμενες.
Αυτοματοποιημένα benchmarks + red-teaming. Εντοπίστε τις παλινδρομήσεις πριν την κυκλοφορία.
Το SFT εκπαιδεύει το μοντέλο να προβλέπει τα tokens του βοηθού δοθέντος ενός πλαισίου συνομιλίας. Η βασική λεπτομέρεια είναι το loss masking: η απώλεια διασταυρούμενης εντροπίας υπολογίζεται μόνο στα tokens του βοηθού, όχι στο system prompt ή στους γύρους του χρήστη. Αυτό εμποδίζει το μοντέλο να «μαθαίνει» την πλευρά του χρήστη στη συνομιλία.
Τρεις μορφές κυριαρχούν στο τοπίο του SFT. Το ChatML έχει υιοθετηθεί ευρύτερα χάρη στα μη διφορούμενα ειδικά tokens του.
<|im_start|>system You are a helpful AI assistant specialized in European AI regulation. <|im_end|> <|im_start|>user What are the key obligations under the EU AI Act for high-risk systems? <|im_end|> <|im_start|>assistant High-risk AI systems under the EU AI Act (in force August 2024) must comply with... <|im_end|>
| Παράμετρος | Τυπική τιμή | Σημειώσεις |
|---|---|---|
| Learning rate | 2e-5 | Χαμηλότερος από την προεκπαίδευση· φθίση συνημιτόνου |
| Epochs | 2–3 | Περισσότερες εποχές → υπερπροσαρμογή σε μικρά σύνολα δεδομένων |
| Batch size (effective) | 64–128 | Χρησιμοποιήστε συσσώρευση κλίσης για μικρή μνήμη GPU |
| Warmup ratio | 0.1 | 10% των βημάτων για το warmup του LR |
| Max sequence length | 2048–8192 | Αντιστοιχίστε με το παράθυρο πλαισίου εξαγωγής συμπερασμάτων σας |
from transformers import AutoModelForCausalLM, AutoTokenizer
from trl import SFTConfig, SFTTrainer
from datasets import load_dataset
import torch
model_name = "meta-llama/Llama-4-Scout-17B-16E-Instruct" # 2026: Llama 4 Scout replaces Llama 3.1 8B
model = AutoModelForCausalLM.from_pretrained(
model_name, torch_dtype=torch.bfloat16, device_map="auto"
)
tokenizer = AutoTokenizer.from_pretrained(model_name)
dataset = load_dataset("HuggingFaceH4/ultrachat_200k", split="train_sft")
sft_config = SFTConfig(
output_dir="./sft-llama-4-scout",
num_train_epochs=3,
per_device_train_batch_size=2,
gradient_accumulation_steps=8,
learning_rate=2e-5,
lr_scheduler_type="cosine",
warmup_ratio=0.1,
logging_steps=10,
save_strategy="epoch",
bf16=True,
)
trainer = SFTTrainer(
model=model,
args=sft_config,
train_dataset=dataset,
processing_class=tokenizer,
)
trainer.train()
trainer.save_model()Το πλήρες fine-tuning τροποποιεί και τις ~7 δισεκατομμύρια παραμέτρους ενός μοντέλου 7B. Σε bfloat16 αυτό είναι 14 GB μόνο για την αποθήκευση παραμέτρων, συν τις κλίσεις και τις καταστάσεις του βελτιστοποιητή. Το LoRA (Low-Rank Adaptation, Hu et al. 2021) αξιοποιεί μια βασική εμπειρική παρατήρηση: οι αλλαγές βαρών κατά το fine-tuning είναι χαμηλής τάξης.
Αντί να μαθαίνει μια πλήρη ενημέρωση βαρών ΔW ∈ ℝ^(d×k), το LoRA μαθαίνει δύο μικρούς πίνακες: A ∈ ℝ^(d×r) και B ∈ ℝ^(r×k) όπου r ≪ min(d, k). Κατά την εξαγωγή συμπερασμάτων, ο προσαρμογέας αναδιπλώνεται: W′ = W + αAB/r. Μόλις συγχωνευθεί, υπάρχει μηδενική επιβάρυνση εξαγωγής συμπερασμάτων.
from peft import LoraConfig, TaskType, get_peft_model
config = LoraConfig(
task_type=TaskType.CAUSAL_LM,
r=16,
lora_alpha=32,
lora_dropout=0.05,
target_modules=[
"q_proj", "k_proj", "v_proj", "o_proj",
"gate_proj", "up_proj", "down_proj",
],
bias="none",
)
model = get_peft_model(base_model, config)
model.print_trainable_parameters()
# trainable params: 83,886,080 || all params: 8,030,261,248 || trainable%: 1.044
# After training, merge adapter back into the base weights
merged = model.merge_and_unload()
merged.save_pretrained("./my-lora-merged")| Μέθοδος | Εκπαιδεύσιμες παράμετροι | RAM GPU (8B) | Ποιότητα | Ταχύτητα εκπαίδευσης |
|---|---|---|---|---|
| Full Fine-Tuning | 7B (100%) | ~80 GB | Άριστη | Πιο αργή |
| LoRA r=4 | ~21M (0.3%) | ~16 GB | Καλή | Γρήγορη |
| LoRA r=16 | ~83M (1.0%) | ~18 GB | Πολύ καλή | Γρήγορη |
| LoRA r=64 | ~335M (4.1%) | ~24 GB | Κοντά στο πλήρες FT | Μέτρια |
Ακόμη και με LoRA, το βασικό μοντέλο φορτωμένο σε bfloat16 απαιτεί 16 GB για ένα μοντέλο 8B — πέρα από τα όρια των καταναλωτικών GPU. Το QLoRA (Dettmers et al. 2023) το λύνει κβαντίζοντας το παγωμένο βασικό μοντέλο σε NormalFloat 4 bit (NF4) και εκπαιδεύοντας τους προσαρμογείς LoRA σε ακρίβεια bfloat16.
Το NormalFloat4 είναι θεωρητικά βέλτιστο από πλευράς πληροφορίας για κανονικά κατανεμημένα βάρη νευρωνικών δικτύων. Λιγότερο σφάλμα από int4 ή fp4.
Οι καταστάσεις του βελτιστοποιητή σελιδοποιούνται αυτόματα στη RAM της CPU όταν γεμίζει η μνήμη GPU, αποτρέποντας καταρρεύσεις OOM κατά την εκπαίδευση.
Κβαντίζει τις ίδιες τις σταθερές κβάντισης, εξοικονομώντας επιπλέον ~0,5 bit ανά παράμετρο.
| Μοντέλο | VRAM FP16 | VRAM QLoRA | Ελάχιστη GPU |
|---|---|---|---|
| Llama 4 Scout (17B) | 34 GB | 10 GB | RTX 4090 24GB |
| Llama 4 Maverick (70B-class) | 140 GB | 40 GB | 2× A100 40GB |
| Llama 4 Behemoth (frontier) | 800+ GB | ~200 GB | 8× H100 80GB |
from transformers import AutoModelForCausalLM, BitsAndBytesConfig
import torch
bnb_config = BitsAndBytesConfig(
load_in_4bit=True,
bnb_4bit_quant_type="nf4",
bnb_4bit_compute_dtype=torch.bfloat16,
bnb_4bit_use_double_quant=True,
)
model = AutoModelForCausalLM.from_pretrained(
"meta-llama/Llama-4-Maverick-17B-128E-Instruct", # 2026: Llama 4 Maverick replaces Llama 3.1 70B
quantization_config=bnb_config,
device_map="auto",
)
# Now apply LoRA to the 4-bit model — same LoraConfig + get_peft_model as beforeΗ Reinforcement Learning from Human Feedback (RLHF) ήταν η ανακάλυψη που μετέτρεψε το GPT-3 σε InstructGPT και τελικά σε GPT-4o. Ευθυγραμμίζει τη συμπεριφορά του μοντέλου με τις ανθρώπινες προτιμήσεις — όχι μόνο την τήρηση οδηγιών, αλλά την παραγωγή εξόδων που είναι πραγματικά προτιμώμενες, ασφαλείς και χρήσιμες.
Fine-tuning του βασικού μοντέλου σε ένα επιμελημένο σύνολο υψηλής ποιότητας επιδείξεων τήρησης οδηγιών. Αυτό δημιουργεί την αρχική πολιτική που θα βελτιώσει το RLHF.
Εκπαίδευση ταξινομητή σε κατά ζεύγη ανθρώπινες προτιμήσεις: δοθέντων δύο ολοκληρώσεων (y_w, y_l) στο ίδιο prompt, ποια είναι καλύτερη; Απώλεια: log σ(r(x, y_w) − r(x, y_l)).
Χρήση της Proximal Policy Optimization για μεγιστοποίηση του σκορ του μοντέλου ανταμοιβής, παραμένοντας κοντά στην πολιτική SFT (η ποινή απόκλισης KL αποτρέπει το reward hacking).
graph LR A[Base Model] -->|SFT on demos| B[SFT Model] B -->|Sample completions| C[Completion Pairs] C -->|Human labelers rank| D[Preference Dataset] D -->|Train| E[Reward Model] B -->|Initialize policy| F[Policy Model] F -->|Rollout + PPO| G[RL Optimization] E -->|Score rollouts| G G -->|Converged| H[RLHF Model]
Το DPO (Direct Preference Optimization) (Rafailov et al. 2023) εξαλείφει εντελώς το μοντέλο ανταμοιβής. Έδειξε μαθηματικά ότι η βέλτιστη πολιτική RLHF μπορεί να εκφραστεί απευθείας ως συνάρτηση των δεδομένων προτίμησης, συμπυκνώνοντας μια αγωγή τριών σταδίων σε ένα μόνο βήμα fine-tuning.
Η απώλεια DPO βελτιστοποιεί απευθείας την πολιτική σε ζεύγη προτιμήσεων (prompt, chosen, rejected) χρησιμοποιώντας το μοντέλο SFT ως παγωμένη αναφορά. Χωρίς PPO, χωρίς μοντέλο ανταμοιβής, χωρίς ξεχωριστή συλλογή δεδομένων εκπαίδευσης RM.
from trl import DPOConfig, DPOTrainer
from datasets import load_dataset
# Dataset needs: prompt, chosen, rejected columns
dataset = load_dataset("HuggingFaceH4/ultrafeedback_binarized", split="train_prefs")
dpo_config = DPOConfig(
output_dir="./dpo-output",
num_train_epochs=3,
per_device_train_batch_size=2,
gradient_accumulation_steps=8,
learning_rate=5e-7, # much smaller than SFT lr
beta=0.1, # KL penalty coefficient
bf16=True,
)
trainer = DPOTrainer(
model=sft_model, # your SFT fine-tuned model
ref_model=sft_ref_model, # frozen reference
args=dpo_config,
train_dataset=dataset,
processing_class=tokenizer,
)
trainer.train()Η Group Relative Policy Optimization (GRPO) (χρησιμοποιείται στο DeepSeek-R1) εξαλείφει το μοντέλο αναφοράς. Για κάθε prompt, δειγματίζει πολλαπλές εξόδους και χρησιμοποιεί τη μέση ανταμοιβή της ομάδας ως βάση για την εκτίμηση πλεονεκτήματος. Αυτό είναι φθηνότερο από το PPO (χωρίς μοντέλο αξίας) και καταλληλότερο για εργασίες συλλογισμού όπου μπορείτε να επαληθεύσετε την ορθότητα προγραμματιστικά.
| Μέθοδος | Υπολογιστικό κόστος | Σταθερότητα | Απαιτήσεις δεδομένων | Σημειώσεις |
|---|---|---|---|---|
| RLHF (PPO) | Πολύ υψηλό | Χαμηλή | Ανθρώπινες κατατάξεις | 4 μοντέλα στη μνήμη· κίνδυνος reward hacking |
| DPO | Χαμηλό | Υψηλή | Ζεύγη προτιμήσεων | Χωρίς μοντέλο ανταμοιβής· απλούστερη αγωγή |
| GRPO | Μεσαίο | Μεσαία | Δείγματα rollout | Χωρίς μοντέλο αναφοράς· καλό για συλλογισμό |
| SimPO | Χαμηλό | Υψηλή | Ζεύγη προτιμήσεων | Χωρίς μοντέλο αναφοράς· ανταμοιβή μέσης λογαριθμικής πιθανότητας |
Η απόσταξη γνώσης εκπαιδεύει ένα μικρό μοντέλο «μαθητή» να μιμείται ένα μεγάλο μοντέλο «δάσκαλο». Η βασική ιδέα είναι ότι ο δάσκαλος παρέχει απαλές κατανομές πιθανότητας στο λεξιλόγιο (logits) αντί για one-hot ετικέτες. Αυτοί οι απαλοί στόχοι κωδικοποιούν πολύ περισσότερη πληροφορία — αποκαλύπτουν ποια tokens είναι σημασιολογικά παρόμοια με τη σωστή απάντηση, δίνοντας στον μαθητή ένα πλουσιότερο σήμα εκπαίδευσης.
Η συνδυασμένη απώλεια: L = α × L_CE(σκληρές ετικέτες) + (1 − α) × L_KL(logits μαθητή ‖ logits δασκάλου). Η κλιμάκωση θερμοκρασίας T > 1 απαλύνει την κατανομή του δασκάλου, κατανέμοντας τη μάζα πιθανότητας σε περισσότερα tokens και καθιστώντας τις απαλές ετικέτες ακόμη πιο ενημερωτικές.
graph TB A["Large Teacher (70B)"] -->|"Generate on training data"| B[Soft Logits] C[Input Prompt] --> A C --> D["Small Student (7B)"] B -->|KL Loss| D E[Ground Truth] -->|CE Loss| D D -->|Both losses| F[Distilled Student]
Ο μαθητής μιμείται τις εξόδους του δασκάλου — δημιουργήστε ολοκληρώσεις του δασκάλου, εκπαιδεύστε τον μαθητή να τις αναπαράγει. Χρησιμοποιείται από το DeepSeek-R1-Distill για τη μεταφορά ιχνών συλλογισμού.
Αντιστοίχιση ενδιάμεσων αναπαραστάσεων (κρυφές καταστάσεις, μοτίβα attention) μεταξύ των στρωμάτων δασκάλου και μαθητή. Μεταφέρει δομική γνώση, όχι μόνο επιφανειακές εξόδους.
Ένα μικρό προσχέδιο μοντέλο προτείνει ακολουθίες tokens· το μεγάλο μοντέλο τις επαληθεύει παράλληλα. Επιτυγχάνει επιτάχυνση εξαγωγής συμπερασμάτων 2–4x χωρίς απώλεια ποιότητας.
Ο μαθητής δημιουργεί tokens· ο δάσκαλος τα βαθμολογεί. Αποφεύγει το exposure bias (αναντιστοιχία κατανομής εκπαίδευσης-δοκιμής) που είναι συνηθισμένο στην offline απόσταξη.
Η συγχώνευση μοντέλων συνδυάζει πολλαπλά fine-tuned checkpoints σε ένα ενιαίο μοντέλο χωρίς καμία πρόσθετη εκπαίδευση. Είναι φθηνή, γρήγορη και εκπληκτικά αποτελεσματική για τον συνδυασμό εξειδικευμένων δεξιοτήτων — κώδικας, μαθηματικά, τήρηση οδηγιών — σε ένα ενιαίο, αναπτύξιμο μοντέλο. Τα συγχωνευμένα μοντέλα εμφανίζονται συχνά στην κορυφή του HuggingFace Open LLM Leaderboard.
Ομαλή παρεμβολή μεταξύ δύο checkpoints μοντέλου στον χώρο των βαρών. Αντιμετωπίζει τα βάρη ως σημεία σε μια υπερσφαίρα. Ιδανική για την ανάμειξη δύο στενά συνδεδεμένων μοντέλων.
Υπολογίστε ΔW = W_FT − W_base για κάθε fine-tuned μοντέλο και έπειτα προσθέστε τα deltas μαζί. Σας επιτρέπει να συνθέτετε ικανότητες ή να αφαιρείτε ανεπιθύμητες συμπεριφορές.
Επιλύει συγκρούσεις μεταξύ μοντέλων: περικόψτε παραμέτρους μικρού μεγέθους, επιλέξτε το κυρίαρχο πρόσημο για κάθε βάρος και έπειτα συγχωνεύστε. Διαχειρίζεται καθαρά 3 ή περισσότερα μοντέλα.
Απορρίπτει τυχαία deltas βαρών fine-tuning (με πιθανότητα p) και επανακλιμακώνει τα εναπομείναντα για να διατηρήσει τη νόρμα. Μειώνει τις παρεμβολές μεταξύ μοντέλων.
# mergekit config.yaml
models:
- model: meta-llama/Llama-4-Scout-17B-16E
parameters:
weight: 0.4
- model: ./llama-4-scout-code-finetuned
parameters:
weight: 0.3
- model: ./llama-4-scout-math-finetuned
parameters:
weight: 0.3
merge_method: ties
base_model: meta-llama/Llama-4-Scout-17B-16E
parameters:
density: 0.7
normalize: truemergekit-yaml config.yaml ./merged-model --cuda
Η ποιότητα των δεδομένων είναι ο μοναδικά σημαντικότερος παράγοντας για την επιτυχία του fine-tuning — πιο σημαντικός από την αρχιτεκτονική του μοντέλου, τη διάρκεια εκπαίδευσης ή την επιλογή βελτιστοποιητή. Ένα κακώς επιμελημένο σύνολο δεδομένων εγγυάται κακά αποτελέσματα ανεξάρτητα από οτιδήποτε άλλο.
Παραδείγματα γραμμένα από ειδικούς· υψηλότερος λόγος σήματος προς θόρυβο. Χρησιμοποιείται για κρίσιμες συμπεριφορές.
Συνθετική δημιουργία με μοντέλα αιχμής. Καλό για την εκκίνηση της κάλυψης ενός τομέα σε κλίμακα.
Εξέλιξη αρχικών οδηγιών σε δυσκολότερες, πιο ποικίλες παραλλαγές. Χρησιμοποιείται στα WizardLM και OpenHermes.
Απαιτεί επιθετικό φιλτράρισμα ποιότητας: αφαίρεση διπλοτύπων, φίλτρο μήκους, φίλτρο perplexity, φίλτρο ασφάλειας.
{
"conversations": [
{"from": "system", "value": "You are an expert in EU AI regulation."},
{"from": "human", "value": "Explain the risk categories in the EU AI Act."},
{"from": "gpt", "value": "The EU AI Act categorizes AI systems into four risk levels..."}
]
}from openai import OpenAI # or use Mistral/Llama locally
client = OpenAI()
def generate_training_example(topic: str, difficulty: str) -> dict:
prompt = (
f"Generate a challenging {difficulty}-level question about {topic} "
"and a comprehensive expert answer."
)
response = client.chat.completions.create(
model="gpt-4o",
messages=[{"role": "user", "content": prompt}],
temperature=0.8,
)
content = response.choices[0].message.content
# Parse and structure output (question/answer split)...
return {"instruction": topic, "response": content}Ο βρόχος fine-tuning είναι: εκπαίδευση → αξιολόγηση σε σύνολο holdout → διάγνωση τρόπων αποτυχίας → βελτίωση δεδομένων → επανεκπαίδευση. Η καλή αξιολόγηση είναι αυτό που μετατρέπει τη δοκιμή και το λάθος σε συστηματική βελτίωση.
Benchmark πολλαπλών γύρων 80 ερωτήσεων σε 8 κατηγορίες (συγγραφή, μαθηματικά, κωδικοποίηση κ.λπ.). Το GPT-4 βαθμολογεί κάθε απάντηση 1–10.
Ποσοστό νικών του μοντέλου σας έναντι ενός μοντέλου αναφοράς (GPT-4o) όπως κρίνεται από το GPT-4o. Γρήγορη αυτοματοποιημένη αξιολόγηση της ποιότητας τήρησης οδηγιών.
Ακρίβεια τήρησης οδηγιών σε επαληθεύσιμους περιορισμούς (π.χ. 'απαντήστε σε λιγότερες από 100 λέξεις'). Αυστηρές και χαλαρές παραλλαγές βαθμολόγησης.
Benchmarks δημιουργίας κώδικα. Μετρική Pass@k: ποσοστό προβλημάτων που λύθηκαν σε k προσπάθειες. Εκτελέσιμες περιπτώσεις δοκιμής ως αλήθεια αναφοράς.
import json
from openai import OpenAI
client = OpenAI()
def evaluate_response(question: str, answer: str, judge_model: str = "gpt-4o") -> dict:
prompt = f"""Rate the following AI assistant response on a scale of 1-10.
Question: {question}
Answer: {answer}
Evaluate: helpfulness (1-10), factuality (1-10), safety (1-10).
Return JSON: {{"helpfulness": N, "factuality": N, "safety": N, "rationale": "..."}}"""
response = client.chat.completions.create(
model=judge_model,
messages=[{"role": "user", "content": prompt}],
response_format={"type": "json_object"},
)
return json.loads(response.choices[0].message.content)| Run | Βασικό μοντέλο | Μέθοδος | Σύνολο δεδομένων | MT-Bench | AlpacaEval Win% | Σημειώσεις |
|---|---|---|---|---|---|---|
| v1 | Llama-4-Scout | SFT | UltraChat 200K | 7.4 | 70% | Βάση αναφοράς |
| v2 | Llama-4-Scout | SFT+DPO | + UltraFeedback | 8.0 | 76% | Το +DPO βελτίωσε την ασφάλεια |
| v3 | Llama-4-Scout | SFT+DPO (r=16) | + UltraFeedback | 8.1 | 77% | LoRA r=16 vs πλήρες FT |
Το fine-tuning είναι ισχυρό αλλά όχι πάντα το σωστό εργαλείο. Η απόφαση εξαρτάται από το τι προσπαθείτε να αλλάξετε: γνώση, συμπεριφορά, μορφή ή προτιμήσεις. Η λάθος επιλογή κοστίζει εβδομάδες μηχανικής και υπολογιστικής ισχύος.
| Σενάριο | Καλύτερη προσέγγιση | Γιατί |
|---|---|---|
| Θεμελίωση απαντήσεων στα έγγραφα της εταιρείας | RAG | Η γνώση μπορεί να αλλάξει· το FT δεν ενημερώνεται εύκολα |
| Επιθυμία συνεπούς τόνου/ύφους | SFT | Ο τόνος είναι μορφή, όχι γνώση |
| Χρήση ορολογίας ειδικής για τον τομέα | SFT + λίγα δεδομένα | Φθηνή αλλαγή της προεπιλεγμένης συμπεριφοράς |
| Διαχείριση συγκεκριμένων μορφών εξόδου | SFT | Η τήρηση σχήματος είναι μια επίκτητη δεξιότητα |
| Μείωση επιβλαβών εξόδων | DPO / RLHF | Η ευθυγράμμιση προτιμήσεων το στοχεύει απευθείας |
| Ανάγκη για ικανότητες συλλογισμού | GRPO ή απόσταξη από R1 | Τα μοτίβα συλλογισμού είναι εκπαιδεύσιμα |
| Προσθήκη νέας πραγματολογικής γνώσης | RAG (όχι FT) | Το FT απομνημονεύει, δεν μπορεί να παραθέσει πηγές |
| Μείωση κόστους API σε κλίμακα | Fine-tuning μικρού μοντέλου | Επίτευξη ποιότητας μεγάλου μοντέλου σε στενή εργασία |
| Πρωτότυπο / γρήγορο πείραμα | Πρώτα μηχανική prompt | Μηδενικό κόστος εκπαίδευσης· επικυρώστε πρώτα την ιδέα |
Ξεκινήστε από κάτω. Ανεβείτε μόνο όταν το τρέχον επίπεδο είναι πραγματικά ανεπαρκές — κάθε σκαλί προσθέτει κόστος, πολυπλοκότητα και καθυστέρηση.
Είτε χρειάζεστε έναν βοηθό ειδικό για τομέα, μοντέλα ευθυγραμμισμένα στις προτιμήσεις ή αποσταγμένες αναπτύξεις παραγωγής — η ομάδα μας τα έχει χτίσει και παραδώσει. Ας μιλήσουμε για την περίπτωση χρήσης σας.