Tools, die ich in der Produktion einsetze — nicht Tools, mit denen ich eine Partnerschaft habe
Jede hier aufgeführte Technologie wurde in einem Produktionssystem deployt. Ich bin bewusst anbieterneutral — das richtige Tool hängt von Ihrem Anwendungsfall, Ihren Daten und Ihrem Budget ab. Keine Partnerschaftsdeals beeinflussen meine Empfehlungen.
Foundation-Modelle für Reasoning, Generierung und multimodale Aufgaben
Branchenanerkannte Referenzen, die Expertise belegen
Scrum.org
Product ownership and value maximization in Scrum
Ausgestellt 2019
Scrum Alliance
Agile facilitation and Scrum framework mastery
Ausgestellt 2018
Scaled Agile
Scaled Agile Framework for enterprise transformation
Ausgestellt 2021
Product School
Building and managing AI-powered products
Ausgestellt 2023
DeepLearning.AI
Neural networks, CNNs, RNNs, and transformers
Ausgestellt 2022
Keine Anbieterpartnerschaften beeinflussen meine Empfehlungen. Ich wähle das Modell, das zu Ihren Latenz-, Kosten- und Genauigkeitsanforderungen passt.
Jedes Tool hier wurde in einem System deployt, das echten Traffic verarbeitet. Im Labor getestete Tools stehen nicht auf dieser Liste.
Die meisten KI-Projekte geben 3-5x zu viel für Infrastruktur aus. Ich dimensioniere von Anfang an richtig — kleinere Modelle, klügeres Caching, effizientere Inferenz.
KI-Modelle ändern sich jedes Quartal. Meine Architekturen abstrahieren die Modellebene, sodass Sie Anbieter wechseln können, ohne Ihre Anwendung umzuschreiben.
Buchen Sie einen 30-Minuten-Call. Ich bewerte Ihre Anforderungen und empfehle die richtige Kombination aus Modellen, Infrastruktur und Frameworks — mit Kostenschätzungen.
Jedes Tool, das wir evaluieren, deployen oder empfehlen — mit ehrlichen Bewertungen.
Anthropic
Most capable Claude model — complex reasoning, long-context analysis, agentic tasks.
Offizielle Dokumentation →Anthropic
Best balance of intelligence and speed for production workloads.
Offizielle Dokumentation →Anthropic
Fastest and lowest-cost Claude model for high-volume tasks.
Offizielle Dokumentation →Anthropic
AI-native CLI for agentic software engineering — reads, writes, and runs code autonomously.
Offizielle Dokumentation →Anthropic
Open protocol connecting AI assistants to external tools, data sources, and services.
Offizielle Dokumentation →Anthropic
Build, orchestrate, and deploy multi-agent systems powered by Claude.
Offizielle Dokumentation →Mistral AI
Top-tier reasoning model with 128K context — Mistral's flagship for enterprise tasks.
Offizielle Dokumentation →Mistral AI
Cost-efficient multimodal model — text and image understanding.
Offizielle Dokumentation →Mistral AI
Apache 2.0 multilingual model — EU-sovereign deployments, 128K context.
Offizielle Dokumentation →Mistral AI
Code generation specialist — 80+ languages, fill-in-the-middle, 32K context.
Offizielle Dokumentation →Mistral AI
Frontier vision-language model — document analysis, chart reading, 128K context.
Offizielle Dokumentation →Mistral AI
High-quality text embeddings for RAG and semantic search.
Offizielle Dokumentation →Mistral AI
Train and own frontier AI model weights outright — no API rental, full data sovereignty.
Offizielle Dokumentation →Mistral AI
Enterprise AI assistant — SSO, audit logs, EU data residency, web search, document upload.
Offizielle Dokumentation →Meta
Meta's flagship open-weight model — Apache 2.0, matches GPT-4 on many benchmarks at fraction of cost.
Offizielle Dokumentation →Meta
Lightweight Llama models for mobile, edge, and on-device inference.
Offizielle Dokumentation →Meta
Vision-language Llama models — image understanding, document analysis.
Offizielle Dokumentation →Google's open-weight family — Apache 2.0, strong reasoning, multilingual, edge-to-server range.
Offizielle Dokumentation →Microsoft
MIT-licensed reasoning specialist — outperforms models 3× larger on math and coding.
Offizielle Dokumentation →Microsoft
Edge-optimised reasoning model — 3.8B parameters, strong instruction following on constrained hardware.
Offizielle Dokumentation →Alibaba
Alibaba's Apache 2.0 multilingual family — exceptional Chinese/English, strong math, full size range.
Offizielle Dokumentation →Alibaba
State-of-the-art open-source code generation — rivals GPT-4o on coding benchmarks.
Offizielle Dokumentation →DeepSeek
MIT-licensed reasoning specialist with chain-of-thought — matches o1 on math and science tasks.
Offizielle Dokumentation →DeepSeek
671B MoE open-weight general model — top open-source benchmark scores across all categories.
Offizielle Dokumentation →TII UAE
TII's Apache 2.0 family — strong multilingual performance, designed for EU/MENA sovereign deployments.
Offizielle Dokumentation →Hugging Face
Ultra-compact models for on-device and browser inference — Apache 2.0, efficiency benchmark.
Offizielle Dokumentation →Ollama
One-command local model serving — runs Llama, Mistral, Gemma and 100+ models on any hardware.
Offizielle Dokumentation →vLLM Project
High-throughput production LLM serving — PagedAttention, continuous batching, OpenAI-compatible.
Offizielle Dokumentation →Hugging Face
Hugging Face's production inference server — tensor parallelism, quantization, streaming.
Offizielle Dokumentation →ggerganov
CPU/GPU inference in C++ — GGUF format, runs on Apple Silicon, NVIDIA, AMD, CPU-only.
Offizielle Dokumentation →LM Studio
Desktop GUI for discovering, downloading, and running local LLMs — OpenAI-compatible server.
Offizielle Dokumentation →Hugging Face
Run Transformers in the browser and Node.js — ONNX-based, no server required.
Offizielle Dokumentation →Microsoft
Cross-platform optimised inference — CPU, GPU, mobile, browser, WASM support.
Offizielle Dokumentation →BerriAI
Universal LLM API proxy — call 100+ models with OpenAI format, load balancing, fallbacks.
Offizielle Dokumentation →Unsloth AI
2× faster fine-tuning, 70% less VRAM — LoRA and QLoRA for Llama, Mistral, Qwen, Gemma.
Offizielle Dokumentation →OpenAccess AI Collective
Production fine-tuning framework — YAML config, LoRA/QLoRA/full, multi-GPU, Flash Attention.
Offizielle Dokumentation →hiyouga
Fine-tune 100+ LLMs with a web UI or CLI — SFT, DPO, GRPO, LoRA, QLoRA.
Offizielle Dokumentation →PyTorch
PyTorch-native fine-tuning library — recipe-based, minimal dependencies, full control.
Offizielle Dokumentation →Hugging Face
Parameter-Efficient Fine-Tuning — LoRA, QLoRA, IA³, AdaLoRA, Prefix Tuning.
Offizielle Dokumentation →Hugging Face
Transformer Reinforcement Learning — SFT, DPO, GRPO, PPO, ORPO for alignment training.
Offizielle Dokumentation →Microsoft
ZeRO optimizer for large model training — 10× throughput, trillion-parameter scale.
Offizielle Dokumentation →Hugging Face
One-line multi-GPU and TPU training — no code changes, FSDP and DeepSpeed integration.
Offizielle Dokumentation →NVIDIA
NVIDIA's large-scale pre-training framework — tensor/pipeline/sequence parallelism.
Offizielle Dokumentation →Hugging Face
900K+ models, 100K+ datasets, and Spaces — the de facto standard for AI artifact sharing.
Offizielle Dokumentation →Hugging Face
Core model library — load, run, and fine-tune any model in PyTorch, TensorFlow, or JAX.
Offizielle Dokumentation →Hugging Face
100K+ datasets with streaming, arrow-based loading, and one-line preprocessing.
Offizielle Dokumentation →Hugging Face
Managed dedicated or serverless model deployment — auto-scaling, private endpoints.
Offizielle Dokumentation →Hugging Face
No-code fine-tuning for LLMs and other models — SFT, DPO, classification, NER.
Offizielle Dokumentation →Hugging Face
Host Gradio and Streamlit ML demos — free tier available, GPU-enabled options.
Offizielle Dokumentation →Hugging Face
Standardised metrics library — BLEU, ROUGE, accuracy, F1, and 100+ custom metrics.
Offizielle Dokumentation →Hugging Face
Programmatic Hub access — upload models, create repos, manage tokens, search.
Offizielle Dokumentation →LangChain
LLM application framework — chains, agents, RAG, tool use, memory.
Offizielle Dokumentation →LlamaIndex
Data framework for LLM apps — ingestion, indexing, querying over any data source.
Offizielle Dokumentation →deepset
Production NLP pipeline framework — RAG, document search, question answering.
Offizielle Dokumentation →Stanford NLP
Declarative LLM programming — optimise prompts and weights automatically.
Offizielle Dokumentation →Jason Liu
Structured output extraction — Pydantic schemas from any LLM, with validation and retries.
Offizielle Dokumentation →Microsoft
Enterprise LLM orchestration for .NET, Python, Java — plugins, planners, memory.
Offizielle Dokumentation →CrewAI
Role-based multi-agent orchestration — agents collaborate with defined roles and goals.
Offizielle Dokumentation →Microsoft
Microsoft's multi-agent conversation framework — async agents, human-in-the-loop.
Offizielle Dokumentation →Hugging Face
Minimal agentic framework — code-first agents that write and execute Python, 1000-line core.
Offizielle Dokumentation →Qdrant
Rust-based vector search — on-prem friendly, filterable, sparse+dense hybrid search.
Offizielle Dokumentation →Weaviate
GraphQL API vector database — multi-tenancy, hybrid search, generative search.
Offizielle Dokumentation →Chroma
Local-first open-source vector database — Python-native, zero infrastructure required.
Offizielle Dokumentation →Zilliz
Distributed vector search for billion-scale data — HNSW, IVF, GPU acceleration.
Offizielle Dokumentation →PostgreSQL
Vector similarity search extension for PostgreSQL — no separate infrastructure needed.
Offizielle Dokumentation →Pinecone
Managed cloud vector database — serverless tier, namespaces, metadata filtering.
Offizielle Dokumentation →Pollen Robotics
Open-source humanoid robot for research and industry — Apache 2.0, ROS2, Python SDK.
Offizielle Dokumentation →Open Robotics
Robot Operating System 2 — real-time communication, sensor fusion, navigation stack.
Offizielle Dokumentation →Hugging Face
Open-source robot learning — imitation learning, reinforcement learning, pre-trained policies.
Offizielle Dokumentation →NVIDIA
Robot simulation and deployment platform — synthetic data generation, physics simulation.
Offizielle Dokumentation →OpenCV
Computer vision library — 2500+ algorithms, real-time image processing, widely deployed.
Offizielle Dokumentation →Meta
Segment Anything Model 2 — real-time video and image segmentation, zero-shot.
Offizielle Dokumentation →Ultralytics
Real-time object detection — fastest production-grade detector, ONNX/CoreML export.
Offizielle Dokumentation →Amazon
Managed foundation model APIs on AWS — Claude, Llama, Mistral, Titan, Stable Diffusion.
Offizielle Dokumentation →Microsoft
Microsoft's enterprise AI platform — model catalog, fine-tuning, responsible AI tools.
Offizielle Dokumentation →GCP's unified AI/ML platform — Gemini, model garden, AutoML, feature store.
Offizielle Dokumentation →Cloudflare
Run AI models at the edge globally — Workers AI, 100+ models, serverless inference.
Offizielle Dokumentation →LangChain
LLM observability and tracing — log runs, compare prompts, regression testing.
Offizielle Dokumentation →Weights & Biases
ML experiment tracking, visualisation, and hyperparameter sweeps — industry standard.
Offizielle Dokumentation →Databricks
ML lifecycle management — experiment tracking, model registry, deployment.
Offizielle Dokumentation →CNCF / Grafana Labs
Inference metrics collection and dashboards — latency, throughput, error rates.
Offizielle Dokumentation →Arize AI
LLM evaluation and monitoring — hallucination detection, embeddings visualisation, drift.
Offizielle Dokumentation →Exploding Gradients
RAG evaluation framework — faithfulness, answer relevancy, context precision metrics.
Offizielle Dokumentation →