Ressourcen/Landschafts-Leitfaden

Open-Source-KI

Open-Source-KI-Landschaft 2026

Der maßgebliche Leitfaden zu Open-Source-KI im Jahr 2026. Spitzenmodelle, Trainings-Frameworks, Inferenzserver, Fine-Tuning-Techniken, Vektordatenbanken und Orchestrierungstools — mit praktischer Anleitung zur Wahl des richtigen Stacks für Ihren Anwendungsfall.

11 Abschnitte

45 Min. Lesezeit

Codebeispiele enthalten

March 2026

Warum Open-Source-KI wichtig ist

Im Jahr 2022 galt GPT-3.5 in der Open-Source-Community weithin als unerreichbar. Die Lücke schien unüberwindbar. Bis 2026 hat sich das Bild dramatisch gewandelt: Llama 4 Maverick ist bei den meisten Benchmarks mit geschlossenen Spitzenmodellen konkurrenzfähig, DeepSeek-R1 fordert OpenAI o1 beim mathematischen Schlussfolgern heraus, und das Open-Source-Ökosystem hat spezialisierte Modelle hervorgebracht, die geschlossene Pendants in engen Domänen übertreffen.

Für Unternehmen und Entwickler bedeutet das zum ersten Mal echte Wahlfreiheit. Open-Weight-Modelle sind kein Notbehelf mehr; sie sind oft die erste Wahl.

Datenschutz

Das Modell läuft vollständig auf Ihrer Infrastruktur. Ihre Daten verlassen niemals Ihre Umgebung — entscheidend für Gesundheitswesen, Recht, Finanzen und jede regulierte Branche.

Kosten im großen Maßstab

Ein einziger A100-Cluster ersetzt API-Kosten pro Token im großen Volumen. Bei über 10 Mio. Anfragen pro Monat liefern selbst gehostete Modelle typischerweise eine Kostsenkung um das 5- bis 20-Fache.

Anpassung

Feinabstimmung auf Ihre Domäne, Ihren Tonfall, Ihre Daten. Geschlossene APIs geben Ihnen Prompt-Engineering; offene Gewichte geben Ihnen volle Modellkontrolle.

Die eine echte Herausforderung

Der operative Aufwand. Ein Modell selbst zu hosten bedeutet, dass Sie Infrastrukturbereitstellung, Modellaktualisierungen, Monitoring, Kapazitätsplanung und Incident-Response selbst verantworten. Geschlossene APIs lagern all das aus. Die Frage lautet nie „Ist Open Source besser?“ — sondern „Haben Sie die Engineering-Kapazität, es zuverlässig zu betreiben?“

Der Open-Source-KI-Stack

graph TB
  A["Foundation Models (Llama 4, Mistral Large 3, Qwen 2.5, DeepSeek R2)"] --> B["Fine-tuned / Instruction-tuned Variants"]
  B --> C["Inference Server (vLLM / TGI / Ollama)"]
  C --> D["Orchestration Layer (LangChain, LlamaIndex, CrewAI)"]
  D --> E["Application (RAG, Agents, Chatbot, Code assistant)"]

Open-Weight-Spitzenmodelle

Die Landschaft Anfang 2026. MMLU-Werte sind Richtwerte — benchmarken Sie immer auf Ihrer spezifischen Aufgabe, bevor Sie ein Modell für die Produktion auswählen.

Modell	Org.	Parameter	Kontext	Lizenz	MMLU	Am besten für
Llama 4 Maverick	Meta	400B (MoE)	1M	Llama 4	87.5	Spitzen-konkurrenzfähig, multimodal
Llama 4 Scout	Meta	109B (MoE)	10M	Llama 4	79.6	Langer Kontext, effizientes MoE
Llama 4 Behemoth	Meta	2T (MoE, preview)	256K	Llama 4	92.0	Maximale Leistung (Lehrermodell)
Mistral Large 3	Mistral	123B	128K	MRL	84.0	Unternehmen, europäische Compliance
Mistral Small 3	Mistral	24B	128K	Apache 2.0	81.0	Effizient, freizügige Lizenz
DeepSeek-R1	DeepSeek	671B (MoE)	128K	MIT	90.8	Schlussfolgern, Mathematik, Code
DeepSeek-R1-Distill-70B	DeepSeek	70B	128K	MIT	86.7	Effizientes Schlussfolgern
Qwen2.5 72B	Alibaba	72B	128K	Qwen License	86.6	Mehrsprachig, Programmierung
Qwen2.5-Coder 32B	Alibaba	32B	128K	Apache 2.0	—	Codegenerierung
Gemma 2 27B	Google	27B	8K	Gemma	75.2	Kompakt, gut optimiert
Phi-4	Microsoft	14B	16K	MIT	84.8	Klein, aber überraschend leistungsfähig

Lizenzen verstehen

Apache 2.0

Am freizügigsten

Am freizügigsten für die kommerzielle Nutzung. Gewährt Patentrechte, erlaubt Modifikation und Weiterverbreitung. Mistral bevorzugt diese für seine Flaggschiff-Modelle.

MIT

Sehr freizügig

Äußerst freizügig, minimale Einschränkungen. DeepSeek veröffentlicht unter MIT, was seine Modelle zu den am liberalsten lizenzierten Spitzenmodellen macht.

Llama 4

Bedingt

Freizügig für die meisten kommerziellen Nutzungen, erfordert aber eine Lizenzvereinbarung für Produkte/Dienste mit > 700 Mio. monatlich aktiven Nutzern. Gleiche Bedingungen wie Llama 3.

Open Weight vs Open Source

Schlüsselkonzept

Wichtige Unterscheidung: „Open Weight“ bedeutet, dass die Modellgewichte verfügbar sind, Trainingscode und -daten aber möglicherweise nicht. Echtes Open Source (wie Mistral) veröffentlicht beides.

Spezialisierte Modelle

Allzweckmodelle sind nur der Anfang. Das Open-Source-Ökosystem hat hochleistungsfähige Spezialmodelle hervorgebracht, die innerhalb ihrer Domäne weitaus größere Allzweckmodelle übertreffen.

Codegenerierung

Qwen2.5-Coder 32B— Bester Open-Source-Coder, konkurrenzfähig mit Spitzenmodellen bei HumanEval und SWE-bench

CodeLlama 70B— Metas dediziertes Codemodell, stark beim Infilling

StarCoder2 15B— BigCode-Kollaboration, starke Mehrsprachenunterstützung

DeepSeek-Coder-V2— MoE-Architektur, exzellent bei wettbewerbsorientierter Programmierung

Mathematik & Schlussfolgern

DeepSeek-R1 variants— Chain-of-Thought-Schlussfolgern, stark bei MATH und AIME

QwQ-32B— Alibabas Reasoning-Modell, nähert sich der Qualität von o1

Numina-Math-72B— Spezialist für Wettbewerbsmathematik, feinabgestimmt auf Wettbewerbsdaten

Multimodal (Vision + Text)

LLaVA-1.6— Leichtgewichtiges, breit einsetzbares Vision-Language-Modell

Qwen2-VL 72B— Open-Multimodal auf dem neuesten Stand, stark bei Dokumenten

Phi-3.5-vision— Microsofts kompaktes Vision-Modell, läuft auf Edge-Geräten

Embeddings

nomic-embed-text-v1.5— Matryoshka-Embeddings, anpassbare Dimension

mxbai-embed-large-v1— Hochwertige englische Embeddings, Apache 2.0

BAAI/bge-m3— Mehrsprachig (100+ Sprachen), dense + sparse + colbert

Re-Ranker

BAAI/bge-reranker-v2-m3— Mehrsprachiger Cross-Encoder-Re-Ranker

cross-encoder/ms-marco— Branchenüblicher Passagen-Re-Ranker für RAG-Pipelines

Hinweis für europäische Unternehmen

Für europäische Unternehmen sind die Modelle von Mistral (Apache 2.0 lizenziert für Mistral Small 3, Hauptsitz in der EU, EU-gehostete Optionen verfügbar) aus Gründen der Compliance und Datensouveränität oft die Standardwahl. Mistral Small 3 und Mistral Large 3 bieten eine freizügige oder kommerziell verträgliche Lizenz mit einer klaren europäischen Herkunft, die viele Beschaffungs- und Datenresidenz-Anforderungen erfüllt.

Trainings-Frameworks

Zwei Frameworks dominieren: PyTorch und JAX. Sofern Sie keinen besonderen Grund für JAX haben, beginnen Sie mit PyTorch — Ökosystem, Tooling und Community-Support sind unübertroffen.

PyTorch

De-facto-Standard

Dynamische Berechnungsgraphen, imperativer Ausführungsstil und das größte Ökosystem aller ML-Frameworks. Genutzt von Meta, Microsoft, Hugging Face und der überwiegenden Mehrheit der Forschungsgemeinschaft.

Größtes Modell- und Bibliotheksökosystem

Einfachstes Debugging (Python-nativ)

Beste Community und Dokumentation

Natives FSDP für verteiltes Training

JAX / Flax

Forschung & TPUs

Googles funktionales ML-Framework mit XLA-Kompilierung. Brilliert auf TPUs, ermöglicht Funktionstransformationen (grad, jit, vmap, pmap). Flax und Equinox sind die führenden darauf aufbauenden Bibliotheken für neuronale Netze.

Beste Leistung auf TPUs

XLA-Just-in-Time-Kompilierung

Funktionale Transformationen (jit, vmap, pmap)

Bevorzugt von der Forschung bei Google DeepMind

Wichtige Trainingsbibliotheken

transformersby HuggingFace

Laden, feinabstimmen und teilen Sie jedes Modell aus dem Hub. Die zentrale Bibliothek des Open-Source-KI-Ökosystems.

trlby HuggingFace

Trainingsschleifen für überwachtes Fine-Tuning (SFT), RLHF, DPO und GRPO. Die Standardbibliothek für Alignment-Training.

accelerateby HuggingFace

Einzige Abstraktionsschicht für Multi-GPU-, Multi-Node- und Mixed-Precision-Training. Einmal schreiben, überall ausführen.

deepspeedby Microsoft

ZeRO-Optimierer-Stufen 1/2/3, 3D-Parallelismus (Tensor, Pipeline, Daten). Erforderlich für das Training sehr großer Modelle.

FSDPby PyTorch native

Fully Sharded Data Parallel — PyTorchs native Antwort auf DeepSpeed ZeRO. Einfachere Integration, vergleichbare Leistung.

SFT-Trainingsbeispiel (trl)

python

from transformers import AutoTokenizer, AutoModelForCausalLM
from trl import SFTTrainer, SFTConfig
from datasets import load_dataset
import torch

model = AutoModelForCausalLM.from_pretrained(
    "meta-llama/Llama-4-Scout-17B-16E-Instruct",
    torch_dtype=torch.bfloat16,
    device_map="auto",
)
tokenizer = AutoTokenizer.from_pretrained("meta-llama/Llama-4-Scout-17B-16E-Instruct")
dataset = load_dataset("HuggingFaceH4/ultrachat_200k", split="train_sft[:10000]")

trainer = SFTTrainer(
    model=model,
    args=SFTConfig(
        output_dir="./sft-output",
        num_train_epochs=3,
        per_device_train_batch_size=4,
    ),
    train_dataset=dataset,
    processing_class=tokenizer,
)
trainer.train()

Fine-Tuning: LoRA & QLoRA

Vollständiges Fine-Tuning erfordert so viele GPUs wie das Vortraining — für die meisten Teams unerschwinglich. Parametereffiziente Fine-Tuning-Methoden (PEFT) ermöglichen es, Spitzenmodelle auf einer einzigen GPU anzupassen.

LoRA: Low-Rank-Adaption

Statt alle Modellgewichte zu aktualisieren, fügt LoRA kleine Adaptermatrizen A und B neben eingefrorenen Gewichtsmatrizen hinzu. Nur die Adapter werden trainiert, wodurch die trainierbaren Parameter für ein 7B-Modell um bis zu das 10.000-Fache reduziert werden.

W' = W + ΔW = W + AB

wobei A ∈ ℝ^(d×r), B ∈ ℝ^(r×k), r << min(d, k)

Der Rang r steuert die Kapazität der Adapter. Typische Werte: 8–64. Höherer Rang = mehr Kapazität, aber mehr Parameter. Zur Inferenzzeit können Adapter ohne Mehraufwand in das Basismodell zusammengeführt werden.

QLoRA: Quantisiertes LoRA

QLoRA quantisiert die Gewichte des Basismodells auf 4-Bit NF4 (Normal Float 4) und trainiert dann LoRA-Adapter in bfloat16. Dies ermöglicht das Fine-Tuning eines 70B-Modells auf nur 2× A100 80GB GPUs — was normalerweise einen 16-GPU-Cluster erfordern würde. Der Qualitätsverlust durch die Quantisierung ist minimal, wenn die Adapter in höherer Präzision trainiert werden.

LoRA-Konfiguration (peft)

python

from peft import LoraConfig, get_peft_model

lora_config = LoraConfig(
    r=16,                    # rank — controls adapter capacity
    lora_alpha=32,           # scaling factor (alpha/r = effective LR)
    target_modules=["q_proj", "v_proj", "k_proj", "o_proj"],
    lora_dropout=0.05,
    bias="none",
    task_type="CAUSAL_LM",
)
model = get_peft_model(model, lora_config)
model.print_trainable_parameters()
# trainable params: 6,815,744 || all params: 8,036,802,560 || trainable%: 0.085

Methode	GPU-Speicher (7B)	Trainierbare Parameter	Qualität	Bester Anwendungsfall
Full Fine-Tuning	~112 GB	100%	Höchste	Wenn Qualität vorrangig ist und GPUs reichlich vorhanden sind
LoRA	~16 GB	0.1–1%	Nahezu vollständig	Stil-/Format-Anpassung, Instruction Tuning
QLoRA	~6 GB	0.1–1%	95–98 % von LoRA	Ressourcenbeschränktes Fine-Tuning, 70B auf 2 GPUs

DoRA: Gewichtszerlegtes LoRA

Eine neuere Variante, die Gewichtsmatrizen in Magnituden- und Richtungskomponenten zerlegt und LoRA dann nur auf die Richtungskomponente anwendet. Erzielt bei gleichem Rang oft bessere Qualität als Standard-LoRA. Unterstützt in peft über use_dora=True.

Fine-Tuning vs. RAG: Wann was verwenden

Fine-Tuning verwenden, wenn:

• Ausgabestil oder -format angepasst wird
• Ein spezialisiertes Domänenvokabular vermittelt wird
• Eine konsistente Persona oder ein konsistenter Tonfall erforderlich ist
• Aufgabenspezifisches Befolgen von Anweisungen

RAG verwenden, wenn:

• Antworten in konkreten Dokumenten verankert werden
• Die Wissensbasis häufig aktualisiert wird
• Quellenangaben erforderlich sind
• Halluzinationen bei faktischen Anfragen reduziert werden

Inferenzserver

Sobald Sie ein Modell haben, müssen Sie es bereitstellen. Die Wahl des Inferenzservers bestimmt Ihren Durchsatz, Ihre Latenz und Ihre operative Komplexität. Für Produktionslasten ist vLLM die am weitesten verbreitete Wahl.

Server	Sprache	Am besten für	Quantisierung	Streaming	Lizenz
vLLM	Python	Produktion mit hohem Durchsatz	GPTQ, AWQ, GGUF	✓	Apache 2.0
TGI	Rust/Python	HuggingFace-Stack	bitsandbytes, GPTQ	✓	Apache 2.0
Ollama	Go	Lokale Entwicklung	GGUF (llama.cpp)	✓	MIT
llama.cpp	C++	Edge/CPU/Apple Silicon	GGUF all levels	✓	MIT
LMDeploy	Python	Schnelle Inferenz + int4	W4A16, W8A8	✓	Apache 2.0
Triton Inference Server	C++	Multi-Framework-Produktion	Backend dependent	✓	BSD

vLLM PagedAttention erklärt

Herkömmliche Inferenz allokiert den KV-Cache in großen zusammenhängenden Blöcken, was Speicher verschwendet und das Batching von Anfragen unterschiedlicher Sequenzlängen verhindert. PagedAttention behandelt den KV-Cache wie virtuelle Speicherseiten — Blöcke werden bei Bedarf allokiert und nach Möglichkeit über Anfragen hinweg geteilt. Dies ermöglicht kontinuierliches Batching (neue Anfragen schließen sich laufenden Batches an) und liefert eine 2- bis 4-fach bessere GPU-Auslastung gegenüber naivem Serving.

vLLM starten (OpenAI-kompatible API)

bash

# Start vLLM OpenAI-compatible server
python -m vllm.entrypoints.openai.api_server \
  --model meta-llama/Llama-4-Scout-17B-16E-Instruct \
  --dtype bfloat16 \
  --max-model-len 8192 \
  --port 8000

python

from openai import OpenAI

# vLLM exposes an OpenAI-compatible API
client = OpenAI(base_url="http://localhost:8000/v1", api_key="token")

response = client.chat.completions.create(
    model="meta-llama/Llama-4-Scout-17B-16E-Instruct",
    messages=[{"role": "user", "content": "Explain attention mechanisms"}],
    temperature=0.7,
    max_tokens=512,
)
print(response.choices[0].message.content)

Lokale Inferenz

Für Entwicklung, abgeschottete (air-gapped) Umgebungen oder den persönlichen Gebrauch ermöglichen Tools für lokale Inferenz das Ausführen von Modellen auf Consumer-Hardware ohne Cloud-Konto. Ollama ist der einfachste Einstiegspunkt.

Ollama

Verwaltet Modell-Downloads, GGUF-Quantisierung und stellt eine OpenAI-kompatible lokale API bereit. Keine Python-Umgebung erforderlich.

bash

# Install Ollama
curl -fsSL https://ollama.ai/install.sh | sh

# Modelle herunterladen und ausführen
ollama run llama4:scout         # ~23 GB GGUF Q4_K_M (MoE, effizient)
ollama run mistral-small3       # ~14 GB GGUF Q4
ollama run deepseek-r1:70b      # ~40 GB
ollama run qwen2.5-coder:7b     # Code-Spezialist

# Heruntergeladene Modelle auflisten
ollama list

GGUF-Quantisierungsstufen

Format	Bits/Gewicht	Qualität	Empfohlen für
Q2_K	2-bit	Niedrig	Absolutes Minimum an RAM
Q4_K_M	4-bit	Gut	Bestes Verhältnis von Qualität/Größe — empfohlener Standard
Q5_K_M	5-bit	Sehr gut	Wenn Sie zusätzlichen RAM übrig haben
Q6_K	6-bit	Ausgezeichnet	Nahezu verlustfrei, viel RAM verfügbar
Q8_0	8-bit	Nahezu verlustfrei	Entwicklung, Systeme mit viel RAM
F16	16-bit	Verlustfrei	Maximale Qualität, nur Server-GPU

Hardware-Leitfaden

Hardware	Empfohlenes Modell
MacBook M2/M3/M4 (16GB)	8B Q4_K_M
MacBook M2 Pro (32GB)	13-14B Q4_K_M
MacBook M3 Max (64GB)	70B Q4_K_M
RTX 3090 24GB	13B Q8_0 or 30B Q4
A100 80GB	70B FP16 or Llama 4 Scout Q4
2× A100 80GB	Llama 4 Maverick Q4 or 70B FP16

LM Studio

Plattformübergreifende GUI für lokale Modelle. Durchsuchen und Herunterladen von HuggingFace, OpenAI-kompatibler lokaler Server, Überwachung der Hardware-Auslastung. Ideal für Nutzer ohne Entwicklerkenntnisse.

Jan.ai

Datenschutzorientierte Desktop-LLM-Anwendung. 100 % offline, Open Source (AGPL), unterstützt Ollama-kompatible Modelle. Gebaut für Nutzer, die null Telemetrie wollen.

Vektordatenbanken

Vektordatenbanken sind das Rückgrat von RAG-Systemen. Die richtige Wahl hängt von der Skalierung, der vorhandenen Infrastruktur und davon ab, ob Sie neben der Vektorsuche auch eine Metadatenfilterung benötigen.

Datenbank	Typ	Skalierung	Lizenz	Alleinstellungsmerkmal
pgvector	PostgreSQL extension	Mittel	Apache 2.0	SQL + Vektoren, keine neue Infra
Chroma	Embedded/server	Klein-Mittel	Apache 2.0	Einfachste API, ideal für Prototyping
Qdrant	Rust server	Groß	Apache 2.0	Payload-Filterung, schnell
Weaviate	Go server	Groß	BSD	Hybride Suche, GraphQL
Milvus	C++ server	Sehr groß	Apache 2.0	Milliarden-Skala, cloud-nativ
LanceDB	Embedded	Mittel	Apache 2.0	Arrow-nativ, serverless

Beginnen Sie mit pgvector

Wenn Sie bereits PostgreSQL betreiben, fügt pgvector die Vektorsuche ohne neue Infrastruktur hinzu. Es bewältigt Millionen von Vektoren mühelos mit IVFFlat- oder HNSW-Indizes — mehr als genug für die meisten RAG-Systeme in der Produktion.

pgvector-Schnellstart

sql

-- Enable the extension
CREATE EXTENSION IF NOT EXISTS vector;

-- Create table with vector column
CREATE TABLE documents (
    id        bigserial PRIMARY KEY,
    content   text,
    embedding vector(1536)    -- dimension matches your embedding model
);

-- Create approximate nearest neighbor index (IVFFlat)
CREATE INDEX ON documents USING ivfflat (embedding vector_cosine_ops)
  WITH (lists = 100);

-- Alternatively, HNSW (better recall, slower build)
-- CREATE INDEX ON documents USING hnsw (embedding vector_cosine_ops);

-- Semantic similarity query
SELECT content, 1 - (embedding <=> '[0.1, 0.2, ...]'::vector) AS similarity
FROM documents
ORDER BY embedding <=> '[0.1, 0.2, ...]'::vector
LIMIT 5;

Orchestrierung & Agenten

Orchestrierungs-Frameworks verbinden Ihr Modell mit Tools, Speicher und mehrstufigen Pipelines. Die Landschaft ist überfüllt — wählen Sie nach Ihrem Anwendungsfall, nicht allein nach GitHub-Sternen.

Framework	GitHub-Sterne	Am besten für	Abstraktionsebene
LangChain	90k+	Allzweck-Pipelines	Hoch
LangGraph	10k+	Zustandsbehaftete Agenten-Workflows	Mittel
LlamaIndex	35k+	RAG-lastige Anwendungen	Mittel
CrewAI	20k+	Multi-Agenten-Kollaboration	Hoch
AutoGen	30k+	Konversationelle Multi-Agenten	Mittel
DSPy	20k+	Prompt-Optimierung	Niedrig-Mittel
Semantic Kernel	20k+	.NET-/Unternehmensintegration	Hoch
Haystack	15k+	NLP-Pipelines, offen	Mittel

DSPy: Prompt-Optimierung

DSPy verfolgt eine andere Philosophie als andere Frameworks: Statt Prompt-Vorlagen von Hand zu erstellen, definieren Sie eine Aufgabensignatur (Eingaben, Ausgaben und Einschränkungen) und einige gelabelte Beispiele, dann optimiert DSPy die Prompts automatisch mit Algorithmen wie OPRO oder BootstrapFewShot. Das ist besonders wirkungsvoll bei kleineren Open-Source-Modellen, die empfindlich auf die Prompt-Formulierung reagieren — lassen Sie den Optimierer finden, was funktioniert, statt manuell zu iterieren.

Automatische Few-Shot-AuswahlTuning von Prompt-AnweisungenMehrstufige SchlussfolgerungskettenFunktioniert mit jedem LLM

Evaluationstools

Die Evaluation ist der Punkt, an dem die meisten Open-Source-KI-Projekte in der Produktion scheitern. Bevor Sie ein Modell einsetzen, definieren Sie messbare Qualitätskriterien und etablieren Sie eine Baseline.

lm-evaluation-harness

by EleutherAI

Der Standard-Benchmark-Runner für Open-Source-Modelle. Führt MMLU, HellaSwag, ARC, WinoGrande und mehr als 60 weitere Benchmarks aus. Wird zur Erzeugung der Werte des Open LLM Leaderboard verwendet.

OpenCompass

by Shanghai AI Lab

Umfassende Evaluationsplattform mit über 100 Benchmarks, besonders stark bei chinesischsprachigen Benchmarks und asiatischen Sprachmodellen.

Ragas

by Explodinggradients

RAG-spezifisches Evaluations-Framework. Misst Kontext-Recall, Treue, Antwortrelevanz und Kontextpräzision mittels LLM-als-Richter-Methodik.

DeepEval

by Confident AI

Evaluations-Framework im Stil von Unit-Tests. Schreiben Sie Evaluationsassertionen in Python, integrieren Sie sie in CI/CD, verfolgen Sie Metriken über Modellversionen hinweg.

Evals

by OpenAI

Das Evaluationsformat von OpenAI ist zum Industriestandard geworden. Viele Open-Source-Projekte übernehmen dieselbe Eval-Struktur zur Interoperabilität.

HELMET

by Princeton

Ganzheitliche Evaluation von Sprachmodellen mit langem Kontext. Entscheidend für Modelle, die große Kontextfenster beanspruchen — testet den tatsächlichen Recall und das Schlussfolgern bei langem Kontext.

Ragas-RAG-Evaluationsbeispiel

python

from ragas import evaluate
from ragas.metrics import faithfulness, answer_relevancy, context_recall
from datasets import Dataset

eval_data = Dataset.from_dict({
    "question": ["What is LoRA?"],
    "answer": ["LoRA adds low-rank adapter matrices to frozen weights..."],
    "contexts": [["Low-Rank Adaptation adds trainable matrices A and B..."]],
    "ground_truth": ["LoRA is a parameter-efficient fine-tuning method..."],
})

result = evaluate(
    eval_data,
    metrics=[faithfulness, answer_relevancy, context_recall]
)
print(result)
# {'faithfulness': 0.96, 'answer_relevancy': 0.89, 'context_recall': 0.92}

Ihren Stack wählen

Es gibt keine universell richtige Antwort. Arbeiten Sie diese Fragen der Reihe nach durch — jede Antwort grenzt Ihre Optionen erheblich ein.

1. Datenschutzbeschränkungen?

Wenn Daten Ihre Infrastruktur nicht verlassen dürfen, befinden Sie sich standardmäßig auf dem reinen Open-Source-Weg. Das schließt jeden verwalteten API-Dienst sofort aus. Dimensionieren Sie zuerst Ihre Infrastruktur.

2. Wie hoch ist Ihr Anfragevolumen?

< 1K Anfr./Tag: Ollama auf einer einzigen Maschine genügt. 1K–100K/Tag: vLLM auf einem einzigen A100-Knoten. > 100K/Tag: vLLM-Cluster oder TGI hinter einem Load Balancer. Bei sehr hohem Volumen amortisieren die Einsparungen gegenüber dem API-Zugriff die Infrastruktur in Wochen.

3. GPU-RAM-Budget?

Grober Richtwert: 7B-Modell ≈ 14 GB FP16 (oder 5–6 GB Q4); 13B ≈ 26 GB; 70B ≈ 140 GB FP16 (oder 40 GB Q4); 405B ≈ 810 GB FP16 (oder 200 GB Q4). Rechnen Sie 20 % Overhead für den KV-Cache hinzu. QLoRA-Fine-Tuning benötigt ~1,5× den Inferenzspeicher.

4. Was ist Ihre primäre Aufgabe?

Allgemeiner Chat → Llama 4 Scout. Codegenerierung → Qwen2.5-Coder. Schlussfolgern/Mathematik → DeepSeek-R1. Mehrsprachig → Qwen2.5 72B. Dokumenten-Q&A → Mistral Small 3 + pgvector. Jede Domäne hat einen klaren Sieger — verwenden Sie kein Allzweckmodell, wenn ein Spezialist existiert.

5. Benötigen Sie Fine-Tuning?

Stil- und Formatänderungen → LoRA (schnell, günstig). Domänenspezifisches Wissen → QLoRA + SFT auf Ihrem Korpus. Verbesserung des Schlussfolgerns → GRPO oder DPO auf Präferenzdaten. Wenn das Verhalten des Basismodells mit Prompting nahe genug ist, überspringen Sie das Fine-Tuning ganz.

Empfohlene Einstiegs-Stacks

Anwendungsfall	Modell	Serving	Orchestrierung	Vektor-DB
Interner Chatbot	Llama 4 Scout	vLLM	LangChain	pgvector
Code-Assistent	Qwen2.5-Coder 7B	Ollama	Claude Code	—
Dokumenten-Q&A	Mistral Small 3	vLLM	LlamaIndex	Qdrant
Multi-Agenten-Workflow	Llama 4 Scout	vLLM	LangGraph	pgvector
Schlussfolgerungsaufgaben	DeepSeek-R1-Distill 7B	Ollama/vLLM	Custom	—
Datenschutzkritisch	Llama 4 Scout	Ollama (air-gapped)	Custom	Chroma

Brauchen Sie Hilfe bei der Wahl und Bereitstellung Ihres Open-Source-KI-Stacks?

Die Auswahl des richtigen Modells und der richtigen Infrastruktur für Ihren Anwendungsfall erfordert eine Abwägung von Leistung, Kosten, Compliance und operativer Reife. Wir helfen Unternehmen, diese Entscheidungen zu navigieren und Open-Source-KI-Systeme umzusetzen, die zuverlässig, privat und im großen Maßstab kosteneffizient sind.

KI-Infrastrukturdienste ansehen

Open-Source-KI-Landschaft 2026

11 Abschnitte

45 Min. Lesezeit

Codebeispiele enthalten

March 2026

Warum Open-Source-KI wichtig ist

Für Unternehmen und Entwickler bedeutet das zum ersten Mal echte Wahlfreiheit. Open-Weight-Modelle sind kein Notbehelf mehr; sie sind oft die erste Wahl.

Datenschutz

Das Modell läuft vollständig auf Ihrer Infrastruktur. Ihre Daten verlassen niemals Ihre Umgebung — entscheidend für Gesundheitswesen, Recht, Finanzen und jede regulierte Branche.

Kosten im großen Maßstab

Anpassung

Feinabstimmung auf Ihre Domäne, Ihren Tonfall, Ihre Daten. Geschlossene APIs geben Ihnen Prompt-Engineering; offene Gewichte geben Ihnen volle Modellkontrolle.

Die eine echte Herausforderung

Der Open-Source-KI-Stack

graph TB
  A["Foundation Models (Llama 4, Mistral Large 3, Qwen 2.5, DeepSeek R2)"] --> B["Fine-tuned / Instruction-tuned Variants"]
  B --> C["Inference Server (vLLM / TGI / Ollama)"]
  C --> D["Orchestration Layer (LangChain, LlamaIndex, CrewAI)"]
  D --> E["Application (RAG, Agents, Chatbot, Code assistant)"]

Open-Weight-Spitzenmodelle

Die Landschaft Anfang 2026. MMLU-Werte sind Richtwerte — benchmarken Sie immer auf Ihrer spezifischen Aufgabe, bevor Sie ein Modell für die Produktion auswählen.

Modell	Org.	Parameter	Kontext	Lizenz	MMLU	Am besten für
Llama 4 Maverick	Meta	400B (MoE)	1M	Llama 4	87.5	Spitzen-konkurrenzfähig, multimodal
Llama 4 Scout	Meta	109B (MoE)	10M	Llama 4	79.6	Langer Kontext, effizientes MoE
Llama 4 Behemoth	Meta	2T (MoE, preview)	256K	Llama 4	92.0	Maximale Leistung (Lehrermodell)
Mistral Large 3	Mistral	123B	128K	MRL	84.0	Unternehmen, europäische Compliance
Mistral Small 3	Mistral	24B	128K	Apache 2.0	81.0	Effizient, freizügige Lizenz
DeepSeek-R1	DeepSeek	671B (MoE)	128K	MIT	90.8	Schlussfolgern, Mathematik, Code
DeepSeek-R1-Distill-70B	DeepSeek	70B	128K	MIT	86.7	Effizientes Schlussfolgern
Qwen2.5 72B	Alibaba	72B	128K	Qwen License	86.6	Mehrsprachig, Programmierung
Qwen2.5-Coder 32B	Alibaba	32B	128K	Apache 2.0	—	Codegenerierung
Gemma 2 27B	Google	27B	8K	Gemma	75.2	Kompakt, gut optimiert
Phi-4	Microsoft	14B	16K	MIT	84.8	Klein, aber überraschend leistungsfähig

Lizenzen verstehen

Apache 2.0

Am freizügigsten

Am freizügigsten für die kommerzielle Nutzung. Gewährt Patentrechte, erlaubt Modifikation und Weiterverbreitung. Mistral bevorzugt diese für seine Flaggschiff-Modelle.

MIT

Sehr freizügig

Äußerst freizügig, minimale Einschränkungen. DeepSeek veröffentlicht unter MIT, was seine Modelle zu den am liberalsten lizenzierten Spitzenmodellen macht.

Llama 4

Bedingt

Freizügig für die meisten kommerziellen Nutzungen, erfordert aber eine Lizenzvereinbarung für Produkte/Dienste mit > 700 Mio. monatlich aktiven Nutzern. Gleiche Bedingungen wie Llama 3.

Open Weight vs Open Source

Schlüsselkonzept

Spezialisierte Modelle

Allzweckmodelle sind nur der Anfang. Das Open-Source-Ökosystem hat hochleistungsfähige Spezialmodelle hervorgebracht, die innerhalb ihrer Domäne weitaus größere Allzweckmodelle übertreffen.

Codegenerierung

Qwen2.5-Coder 32B— Bester Open-Source-Coder, konkurrenzfähig mit Spitzenmodellen bei HumanEval und SWE-bench

CodeLlama 70B— Metas dediziertes Codemodell, stark beim Infilling

StarCoder2 15B— BigCode-Kollaboration, starke Mehrsprachenunterstützung

DeepSeek-Coder-V2— MoE-Architektur, exzellent bei wettbewerbsorientierter Programmierung

Mathematik & Schlussfolgern

DeepSeek-R1 variants— Chain-of-Thought-Schlussfolgern, stark bei MATH und AIME

QwQ-32B— Alibabas Reasoning-Modell, nähert sich der Qualität von o1

Numina-Math-72B— Spezialist für Wettbewerbsmathematik, feinabgestimmt auf Wettbewerbsdaten

Multimodal (Vision + Text)

LLaVA-1.6— Leichtgewichtiges, breit einsetzbares Vision-Language-Modell

Qwen2-VL 72B— Open-Multimodal auf dem neuesten Stand, stark bei Dokumenten

Phi-3.5-vision— Microsofts kompaktes Vision-Modell, läuft auf Edge-Geräten

Embeddings

nomic-embed-text-v1.5— Matryoshka-Embeddings, anpassbare Dimension

mxbai-embed-large-v1— Hochwertige englische Embeddings, Apache 2.0

BAAI/bge-m3— Mehrsprachig (100+ Sprachen), dense + sparse + colbert

Re-Ranker

BAAI/bge-reranker-v2-m3— Mehrsprachiger Cross-Encoder-Re-Ranker

cross-encoder/ms-marco— Branchenüblicher Passagen-Re-Ranker für RAG-Pipelines

Hinweis für europäische Unternehmen

Trainings-Frameworks

Zwei Frameworks dominieren: PyTorch und JAX. Sofern Sie keinen besonderen Grund für JAX haben, beginnen Sie mit PyTorch — Ökosystem, Tooling und Community-Support sind unübertroffen.

PyTorch

De-facto-Standard

Größtes Modell- und Bibliotheksökosystem

Einfachstes Debugging (Python-nativ)

Beste Community und Dokumentation

Natives FSDP für verteiltes Training

JAX / Flax

Forschung & TPUs

Beste Leistung auf TPUs

XLA-Just-in-Time-Kompilierung

Funktionale Transformationen (jit, vmap, pmap)

Bevorzugt von der Forschung bei Google DeepMind

Wichtige Trainingsbibliotheken

transformersby HuggingFace

Laden, feinabstimmen und teilen Sie jedes Modell aus dem Hub. Die zentrale Bibliothek des Open-Source-KI-Ökosystems.

trlby HuggingFace

Trainingsschleifen für überwachtes Fine-Tuning (SFT), RLHF, DPO und GRPO. Die Standardbibliothek für Alignment-Training.

accelerateby HuggingFace

Einzige Abstraktionsschicht für Multi-GPU-, Multi-Node- und Mixed-Precision-Training. Einmal schreiben, überall ausführen.

deepspeedby Microsoft

ZeRO-Optimierer-Stufen 1/2/3, 3D-Parallelismus (Tensor, Pipeline, Daten). Erforderlich für das Training sehr großer Modelle.

FSDPby PyTorch native

Fully Sharded Data Parallel — PyTorchs native Antwort auf DeepSpeed ZeRO. Einfachere Integration, vergleichbare Leistung.

SFT-Trainingsbeispiel (trl)

python

from transformers import AutoTokenizer, AutoModelForCausalLM
from trl import SFTTrainer, SFTConfig
from datasets import load_dataset
import torch

model = AutoModelForCausalLM.from_pretrained(
    "meta-llama/Llama-4-Scout-17B-16E-Instruct",
    torch_dtype=torch.bfloat16,
    device_map="auto",
)
tokenizer = AutoTokenizer.from_pretrained("meta-llama/Llama-4-Scout-17B-16E-Instruct")
dataset = load_dataset("HuggingFaceH4/ultrachat_200k", split="train_sft[:10000]")

trainer = SFTTrainer(
    model=model,
    args=SFTConfig(
        output_dir="./sft-output",
        num_train_epochs=3,
        per_device_train_batch_size=4,
    ),
    train_dataset=dataset,
    processing_class=tokenizer,
)
trainer.train()

Fine-Tuning: LoRA & QLoRA

LoRA: Low-Rank-Adaption

W' = W + ΔW = W + AB

wobei A ∈ ℝ^(d×r), B ∈ ℝ^(r×k), r << min(d, k)

QLoRA: Quantisiertes LoRA

LoRA-Konfiguration (peft)

python

from peft import LoraConfig, get_peft_model

lora_config = LoraConfig(
    r=16,                    # rank — controls adapter capacity
    lora_alpha=32,           # scaling factor (alpha/r = effective LR)
    target_modules=["q_proj", "v_proj", "k_proj", "o_proj"],
    lora_dropout=0.05,
    bias="none",
    task_type="CAUSAL_LM",
)
model = get_peft_model(model, lora_config)
model.print_trainable_parameters()
# trainable params: 6,815,744 || all params: 8,036,802,560 || trainable%: 0.085

Methode	GPU-Speicher (7B)	Trainierbare Parameter	Qualität	Bester Anwendungsfall
Full Fine-Tuning	~112 GB	100%	Höchste	Wenn Qualität vorrangig ist und GPUs reichlich vorhanden sind
LoRA	~16 GB	0.1–1%	Nahezu vollständig	Stil-/Format-Anpassung, Instruction Tuning
QLoRA	~6 GB	0.1–1%	95–98 % von LoRA	Ressourcenbeschränktes Fine-Tuning, 70B auf 2 GPUs

DoRA: Gewichtszerlegtes LoRA

Fine-Tuning vs. RAG: Wann was verwenden

Fine-Tuning verwenden, wenn:

• Ausgabestil oder -format angepasst wird
• Ein spezialisiertes Domänenvokabular vermittelt wird
• Eine konsistente Persona oder ein konsistenter Tonfall erforderlich ist
• Aufgabenspezifisches Befolgen von Anweisungen

RAG verwenden, wenn:

• Antworten in konkreten Dokumenten verankert werden
• Die Wissensbasis häufig aktualisiert wird
• Quellenangaben erforderlich sind
• Halluzinationen bei faktischen Anfragen reduziert werden

Inferenzserver

Server	Sprache	Am besten für	Quantisierung	Streaming	Lizenz
vLLM	Python	Produktion mit hohem Durchsatz	GPTQ, AWQ, GGUF	✓	Apache 2.0
TGI	Rust/Python	HuggingFace-Stack	bitsandbytes, GPTQ	✓	Apache 2.0
Ollama	Go	Lokale Entwicklung	GGUF (llama.cpp)	✓	MIT
llama.cpp	C++	Edge/CPU/Apple Silicon	GGUF all levels	✓	MIT
LMDeploy	Python	Schnelle Inferenz + int4	W4A16, W8A8	✓	Apache 2.0
Triton Inference Server	C++	Multi-Framework-Produktion	Backend dependent	✓	BSD

vLLM PagedAttention erklärt

vLLM starten (OpenAI-kompatible API)

bash

# Start vLLM OpenAI-compatible server
python -m vllm.entrypoints.openai.api_server \
  --model meta-llama/Llama-4-Scout-17B-16E-Instruct \
  --dtype bfloat16 \
  --max-model-len 8192 \
  --port 8000

python

from openai import OpenAI

# vLLM exposes an OpenAI-compatible API
client = OpenAI(base_url="http://localhost:8000/v1", api_key="token")

response = client.chat.completions.create(
    model="meta-llama/Llama-4-Scout-17B-16E-Instruct",
    messages=[{"role": "user", "content": "Explain attention mechanisms"}],
    temperature=0.7,
    max_tokens=512,
)
print(response.choices[0].message.content)

Lokale Inferenz

Ollama

Verwaltet Modell-Downloads, GGUF-Quantisierung und stellt eine OpenAI-kompatible lokale API bereit. Keine Python-Umgebung erforderlich.

bash

# Install Ollama
curl -fsSL https://ollama.ai/install.sh | sh

# Modelle herunterladen und ausführen
ollama run llama4:scout         # ~23 GB GGUF Q4_K_M (MoE, effizient)
ollama run mistral-small3       # ~14 GB GGUF Q4
ollama run deepseek-r1:70b      # ~40 GB
ollama run qwen2.5-coder:7b     # Code-Spezialist

# Heruntergeladene Modelle auflisten
ollama list

GGUF-Quantisierungsstufen

Format	Bits/Gewicht	Qualität	Empfohlen für
Q2_K	2-bit	Niedrig	Absolutes Minimum an RAM
Q4_K_M	4-bit	Gut	Bestes Verhältnis von Qualität/Größe — empfohlener Standard
Q5_K_M	5-bit	Sehr gut	Wenn Sie zusätzlichen RAM übrig haben
Q6_K	6-bit	Ausgezeichnet	Nahezu verlustfrei, viel RAM verfügbar
Q8_0	8-bit	Nahezu verlustfrei	Entwicklung, Systeme mit viel RAM
F16	16-bit	Verlustfrei	Maximale Qualität, nur Server-GPU

Hardware-Leitfaden

Hardware	Empfohlenes Modell
MacBook M2/M3/M4 (16GB)	8B Q4_K_M
MacBook M2 Pro (32GB)	13-14B Q4_K_M
MacBook M3 Max (64GB)	70B Q4_K_M
RTX 3090 24GB	13B Q8_0 or 30B Q4
A100 80GB	70B FP16 or Llama 4 Scout Q4
2× A100 80GB	Llama 4 Maverick Q4 or 70B FP16

LM Studio

Jan.ai

Datenschutzorientierte Desktop-LLM-Anwendung. 100 % offline, Open Source (AGPL), unterstützt Ollama-kompatible Modelle. Gebaut für Nutzer, die null Telemetrie wollen.

Vektordatenbanken

Datenbank	Typ	Skalierung	Lizenz	Alleinstellungsmerkmal
pgvector	PostgreSQL extension	Mittel	Apache 2.0	SQL + Vektoren, keine neue Infra
Chroma	Embedded/server	Klein-Mittel	Apache 2.0	Einfachste API, ideal für Prototyping
Qdrant	Rust server	Groß	Apache 2.0	Payload-Filterung, schnell
Weaviate	Go server	Groß	BSD	Hybride Suche, GraphQL
Milvus	C++ server	Sehr groß	Apache 2.0	Milliarden-Skala, cloud-nativ
LanceDB	Embedded	Mittel	Apache 2.0	Arrow-nativ, serverless

Beginnen Sie mit pgvector

pgvector-Schnellstart

sql

-- Enable the extension
CREATE EXTENSION IF NOT EXISTS vector;

-- Create table with vector column
CREATE TABLE documents (
    id        bigserial PRIMARY KEY,
    content   text,
    embedding vector(1536)    -- dimension matches your embedding model
);

-- Create approximate nearest neighbor index (IVFFlat)
CREATE INDEX ON documents USING ivfflat (embedding vector_cosine_ops)
  WITH (lists = 100);

-- Alternatively, HNSW (better recall, slower build)
-- CREATE INDEX ON documents USING hnsw (embedding vector_cosine_ops);

-- Semantic similarity query
SELECT content, 1 - (embedding <=> '[0.1, 0.2, ...]'::vector) AS similarity
FROM documents
ORDER BY embedding <=> '[0.1, 0.2, ...]'::vector
LIMIT 5;

Orchestrierung & Agenten

Framework	GitHub-Sterne	Am besten für	Abstraktionsebene
LangChain	90k+	Allzweck-Pipelines	Hoch
LangGraph	10k+	Zustandsbehaftete Agenten-Workflows	Mittel
LlamaIndex	35k+	RAG-lastige Anwendungen	Mittel
CrewAI	20k+	Multi-Agenten-Kollaboration	Hoch
AutoGen	30k+	Konversationelle Multi-Agenten	Mittel
DSPy	20k+	Prompt-Optimierung	Niedrig-Mittel
Semantic Kernel	20k+	.NET-/Unternehmensintegration	Hoch
Haystack	15k+	NLP-Pipelines, offen	Mittel

DSPy: Prompt-Optimierung

Automatische Few-Shot-AuswahlTuning von Prompt-AnweisungenMehrstufige SchlussfolgerungskettenFunktioniert mit jedem LLM

Evaluationstools

lm-evaluation-harness

by EleutherAI

OpenCompass

by Shanghai AI Lab

Umfassende Evaluationsplattform mit über 100 Benchmarks, besonders stark bei chinesischsprachigen Benchmarks und asiatischen Sprachmodellen.

Ragas

by Explodinggradients

RAG-spezifisches Evaluations-Framework. Misst Kontext-Recall, Treue, Antwortrelevanz und Kontextpräzision mittels LLM-als-Richter-Methodik.

DeepEval

by Confident AI

Evaluations-Framework im Stil von Unit-Tests. Schreiben Sie Evaluationsassertionen in Python, integrieren Sie sie in CI/CD, verfolgen Sie Metriken über Modellversionen hinweg.

Evals

by OpenAI

Das Evaluationsformat von OpenAI ist zum Industriestandard geworden. Viele Open-Source-Projekte übernehmen dieselbe Eval-Struktur zur Interoperabilität.

HELMET

by Princeton

Ragas-RAG-Evaluationsbeispiel

python

from ragas import evaluate
from ragas.metrics import faithfulness, answer_relevancy, context_recall
from datasets import Dataset

eval_data = Dataset.from_dict({
    "question": ["What is LoRA?"],
    "answer": ["LoRA adds low-rank adapter matrices to frozen weights..."],
    "contexts": [["Low-Rank Adaptation adds trainable matrices A and B..."]],
    "ground_truth": ["LoRA is a parameter-efficient fine-tuning method..."],
})

result = evaluate(
    eval_data,
    metrics=[faithfulness, answer_relevancy, context_recall]
)
print(result)
# {'faithfulness': 0.96, 'answer_relevancy': 0.89, 'context_recall': 0.92}

Ihren Stack wählen

Es gibt keine universell richtige Antwort. Arbeiten Sie diese Fragen der Reihe nach durch — jede Antwort grenzt Ihre Optionen erheblich ein.

1. Datenschutzbeschränkungen?

2. Wie hoch ist Ihr Anfragevolumen?

3. GPU-RAM-Budget?

4. Was ist Ihre primäre Aufgabe?

5. Benötigen Sie Fine-Tuning?

Empfohlene Einstiegs-Stacks

Anwendungsfall	Modell	Serving	Orchestrierung	Vektor-DB
Interner Chatbot	Llama 4 Scout	vLLM	LangChain	pgvector
Code-Assistent	Qwen2.5-Coder 7B	Ollama	Claude Code	—
Dokumenten-Q&A	Mistral Small 3	vLLM	LlamaIndex	Qdrant
Multi-Agenten-Workflow	Llama 4 Scout	vLLM	LangGraph	pgvector
Schlussfolgerungsaufgaben	DeepSeek-R1-Distill 7B	Ollama/vLLM	Custom	—
Datenschutzkritisch	Llama 4 Scout	Ollama (air-gapped)	Custom	Chroma

Brauchen Sie Hilfe bei der Wahl und Bereitstellung Ihres Open-Source-KI-Stacks?

KI-Infrastrukturdienste ansehen

Open-Source-KI-Landschaft 2026

Warum Open-Source-KI wichtig ist

Datenschutz

Kosten im großen Maßstab

Anpassung

Die eine echte Herausforderung

Der Open-Source-KI-Stack

Open-Weight-Spitzenmodelle

Lizenzen verstehen

Apache 2.0

MIT

Llama 4

Open Weight vs Open Source

Spezialisierte Modelle

Codegenerierung

Mathematik & Schlussfolgern

Multimodal (Vision + Text)

Embeddings

Re-Ranker

Hinweis für europäische Unternehmen

Trainings-Frameworks

PyTorch

JAX / Flax

Wichtige Trainingsbibliotheken

SFT-Trainingsbeispiel (trl)

Fine-Tuning: LoRA & QLoRA

LoRA: Low-Rank-Adaption

QLoRA: Quantisiertes LoRA

LoRA-Konfiguration (peft)

DoRA: Gewichtszerlegtes LoRA

Fine-Tuning vs. RAG: Wann was verwenden

Inferenzserver

vLLM PagedAttention erklärt

vLLM starten (OpenAI-kompatible API)

Lokale Inferenz

Ollama

GGUF-Quantisierungsstufen

Hardware-Leitfaden

LM Studio

Jan.ai

Vektordatenbanken

Beginnen Sie mit pgvector

pgvector-Schnellstart

Orchestrierung & Agenten

DSPy: Prompt-Optimierung

Evaluationstools

Ragas-RAG-Evaluationsbeispiel

Ihren Stack wählen

1. Datenschutzbeschränkungen?

2. Wie hoch ist Ihr Anfragevolumen?

3. GPU-RAM-Budget?

4. Was ist Ihre primäre Aufgabe?

5. Benötigen Sie Fine-Tuning?

Empfohlene Einstiegs-Stacks

Brauchen Sie Hilfe bei der Wahl und Bereitstellung Ihres Open-Source-KI-Stacks?

Verwandte Ressourcen

Leitfaden zur RAG-Umsetzung in der Produktion

Leitfaden zur Umsetzung von KI-Agenten

Leitfaden zur LLM-Kostenoptimierung

Open-Source-KI-Landschaft 2026

Warum Open-Source-KI wichtig ist

Datenschutz

Kosten im großen Maßstab

Anpassung

Die eine echte Herausforderung

Der Open-Source-KI-Stack

Open-Weight-Spitzenmodelle

Lizenzen verstehen

Apache 2.0

MIT

Llama 4

Open Weight vs Open Source

Spezialisierte Modelle

Codegenerierung

Mathematik & Schlussfolgern

Multimodal (Vision + Text)

Embeddings

Re-Ranker

Hinweis für europäische Unternehmen

Trainings-Frameworks