Ressourcen/Bewertungsrahmen

Strategischer Rahmen

Matrix zur Auswahl von KI-Anbietern und -Modellen

Ein vollständiger Entscheidungsrahmen zur Bewertung von KI-Anbietern über 8 Dimensionen. Vom Muster des 2-Mio.-Dollar-Fehlers über 25 RFP-Fragen, 12 Warnsignale bis zu einer echten Fallstudie — alles, was Sie brauchen, um den richtigen KI-Anbieter auszuwählen und kostspielige Abhängigkeit zu vermeiden.

11 Abschnitte

Durchgängige Abdeckung

35 Min. Lesezeit

Mit Vorlagen und Tabellen

25 RFP-Fragen

Versandfertig

Aktualisiert im März 2026

Großunternehmen und Mittelstand

Bewertungsprozess von 2 Wochen

Warum die Auswahl von KI-Anbietern scheitert — das Muster des 2-Mio.-Dollar-Fehlers

Ein europäisches Fintech wählte seinen LLM-Anbieter auf Basis einer 45-minütigen Demo und eines wohlwollenden Benchmark-Blogbeitrags. Achtzehn Monate später gab es 2,1 Mio. $ aus, um davon wegzumigrieren. Das Modell war eingestellt worden, das Compliance-Team lehnte die Auftragsverarbeitungsvereinbarung des Anbieters ab, und die Kosten pro Token hatten sich gegenüber dem ursprünglichen Budget verdreifacht. Nichts davon war unvorhersehbar. Alles wäre durch eine strukturierte Bewertung erkannt worden.

Diese Geschichte ist nicht ungewöhnlich. In Gesprächen mit über 80 Engineering-Verantwortlichen in ganz Europa treten immer wieder dieselben Fehlermuster auf. Die Grundursache ist fast nie die Technologie. Es ist der Prozess — oder dessen Fehlen.

Abhängigkeitsrisiko

Anbieterspezifische Prompt-Formate, Function-Calling-Schemata und SDK-Muster summieren sich zu unsichtbaren Migrationsschulden. Durchschnittlicher Engineering-Aufwand für einen Wechsel des LLM-Anbieters mitten im Projekt: 50.000 bis 200.000 $ und 3 bis 6 Monate. Die meisten Teams entdecken die Abhängigkeit erst, wenn sie eine Einstellungsmitteilung oder eine Preiserhöhung erhalten.

Hype vs. Realität

Öffentliche Benchmarks (MMLU, GPQA, HumanEval) messen allgemeine akademische Fähigkeiten. Ihre Produktionslast ist nicht allgemein. Ein Modell auf Platz 1 bei MMLU kann bei Ihrer spezifischen Vertragsextraktion oder Kundensupport-Aufgabe auf Platz 4 landen. Entscheidungen, die auf Benchmarks ohne domänenspezifischen Pilotbetrieb beruhen, enttäuschen regelmäßig.

Die verborgenen 60 %

Die API-Preisgestaltung pro Token macht nur 40 bis 60 % der tatsächlichen KI-Infrastrukturausgaben aus. Egress-Gebühren, Fine-Tuning-Rechenleistung, Compliance-Audits, Support-Upgrades und Migrations-Engineering sind die unsichtbare Mehrheit. Teams, die nur Tokens budgetieren, erleben im zweiten Jahr regelmäßig Kostenüberschreitungen vom 2- bis 3-Fachen.

Die drei Fehlermuster nach Häufigkeit

47%

Compliance-Diskrepanz

Der Anbieter kann die bei der rechtlichen Prüfung entdeckten Anforderungen an Datenresidenz oder Regulatorik nicht erfüllen — nach der Festlegung

31%

Kostenüberschreitung

Versteckte Gebühren, Preisänderungen oder Nutzungswachstum, die in der ursprünglichen TCO-Analyse nicht modelliert wurden, führen zur Budgetüberschreitung

22%

Leistungslücke

Modellqualität oder Latenz in der Produktion entsprechen nicht der Demo oder dem Benchmark und erfordern eine kostspielige Migration

Die 8 Bewertungsdimensionen

Jede Auswahl eines KI-Anbieters sollte über diese acht Dimensionen bewertet werden. Die folgenden Standardgewichtungen eignen sich für ein Großunternehmen, das LLM-Infrastruktur in einem regulierten europäischen Kontext einsetzt — passen Sie die Gewichtungen an Ihre spezifischen Prioritäten an. Ein CISO im Gesundheitswesen wird die Sicherheit mit 35 % gewichten. Ein Start-up im Wettlauf um den Markt gewichtet die technische Leistung vielleicht mit 40 %.

Die Gewichtungen müssen sich auf 100 summieren. Die Abschnitte 3, 4 und 5 vertiefen die drei am stärksten gewichteten Dimensionen.

Technische Leistung

Modellqualität bei Ihren spezifischen Aufgaben, Latenz, Durchsatz und Genauigkeit unter realistischen Bedingungen.

25%

Sicherheit und Compliance

Zertifizierungen (SOC 2, ISO 27001, HIPAA), Datenresidenz, GDPR-Haltung, Ausrichtung am EU AI Act.

20%

Gesamtbetriebskosten

API-Preisgestaltung, Trainingskosten, versteckte Gebühren, Egress, Support-Stufen und Migrations-Engineering-Aufwand.

15%

Support und SLAs

Verfügbarkeitsgarantien, Reaktionszeiten des Supports, dedizierter CSM, Verfügbarkeit einer Enterprise-Stufe.

10%

Integration und Ökosystem

SDK-Qualität, Framework-Kompatibilität (LangChain, LlamaIndex), CI/CD-Integration, Dokumentation.

10%

Roadmap und Stabilität des Anbieters

Finanzielle Reserven, Veröffentlichungsrhythmus der Modelle, Einstellungsrichtlinie, Ausrichtung an Ihrer Produkt-Roadmap.

10%

Compliance und regulatorische Passung

Branchenspezifische Anforderungen — HIPAA im Gesundheitswesen, PCI-DSS im Fintech, Risikoeinstufung nach dem EU AI Act.

Ausstiegsstrategie und Portabilität

Mechanismen für den Datenexport, Modellportabilität, Migrationspfad, vertragliche Ausstiegsklauseln.

Ablaufdiagramm des Bewertungsprozesses

flowchart TD
    A([Start: Vendor Evaluation]) --> B[Discovery & Requirements]
    B --> B1[Define use case & constraints]
    B --> B2[Set must-have criteria]
    B --> B3[Identify 15-20 candidate vendors]
    B1 & B2 & B3 --> C[Initial Shortlist]
    C --> C1[Apply MoSCoW filter]
    C1 --> C2{Passes must-haves?}
    C2 -- No --> X1[Eliminate]
    C2 -- Yes --> D[PoC / Pilot Phase]
    D --> D1[Technical benchmark on your data]
    D --> D2[Security review & DPA check]
    D --> D3[Pricing & TCO modelling]
    D1 & D2 & D3 --> E[Weighted Scoring Matrix]
    E --> E1[Score top 3 vendors]
    E1 --> F[Commercial Negotiation]
    F --> F1[SLA terms]
    F --> F2[Data processing agreement]
    F --> F3[Exit clause negotiation]
    F1 & F2 & F3 --> G([Vendor Selected])
    style A fill:#1a1a2e,stroke:#7c3aed,color:#e2e8f0
    style B fill:#1e293b,stroke:#475569,color:#e2e8f0
    style B1 fill:#1e293b,stroke:#475569,color:#e2e8f0
    style B2 fill:#1e293b,stroke:#475569,color:#e2e8f0
    style B3 fill:#1e293b,stroke:#475569,color:#e2e8f0
    style C fill:#1e293b,stroke:#6366f1,color:#e2e8f0
    style C1 fill:#1e293b,stroke:#475569,color:#e2e8f0
    style C2 fill:#1e1b4b,stroke:#6366f1,color:#e2e8f0
    style D fill:#1e293b,stroke:#3b82f6,color:#e2e8f0
    style D1 fill:#1e293b,stroke:#475569,color:#e2e8f0
    style D2 fill:#1e293b,stroke:#475569,color:#e2e8f0
    style D3 fill:#1e293b,stroke:#475569,color:#e2e8f0
    style E fill:#1e293b,stroke:#8b5cf6,color:#e2e8f0
    style E1 fill:#1e293b,stroke:#475569,color:#e2e8f0
    style F fill:#1e293b,stroke:#f59e0b,color:#e2e8f0
    style F1 fill:#1e293b,stroke:#475569,color:#e2e8f0
    style F2 fill:#1e293b,stroke:#475569,color:#e2e8f0
    style F3 fill:#1e293b,stroke:#475569,color:#e2e8f0
    style X1 fill:#1f0d0d,stroke:#ef4444,color:#e2e8f0
    style G fill:#0d1f12,stroke:#22c55e,color:#e2e8f0

Dimension 1 im Detail: Technische Leistung

Standardgewichtung: 25 %

Die Bewertung der technischen Leistung hat drei Komponenten: Benchmark-Methodik, Messung von Latenz und Durchsatz sowie Genauigkeitstests in Ihrer spezifischen Domäne. Alle drei müssen vor einer Festlegung durchgeführt werden.

Benchmark-Methodik

Öffentliche Benchmarks sind ein Ausgangspunkt, kein Entscheidungskriterium. MMLU prüft breites akademisches Wissen. HumanEval prüft die Generierung von Python-Code. Keiner prüft Ihre spezifische Aufgabe. Erstellen Sie aus echten Produktionsdaten einen domänenspezifischen Bewertungssatz, bevor Sie einen Anbietervergleich durchführen.

Aufbau des Bewertungssatzes

100 bis 500 Beispiele aus echten Produktionsdaten
Randfälle und bekannte Fehlermuster einbeziehen
Leichte, mittlere und schwere Schwierigkeit abdecken
Für Ihren Anwendungsfall relevante adversariale Prompts einbeziehen
Ground-Truth-Labels mit menschlichen Annotatoren erstellen

Genauigkeitsmetriken nach Aufgabentyp

Extraktion: F1-Score zur Genauigkeit von Entität/Wert
Klassifikation: Precision, Recall, F1 pro Klasse
Generierung: menschliche Bewertung + ROUGE/BERTScore
Schlussfolgern: Pass@1 und Pass@3 bei Logikaufgaben
Halluzinationsrate: Überprüfung faktischer Aussagen

Latenz- und Durchsatzmetriken

Bewerten Sie die Latenz niemals mit einer einzelnen Anfrage. Messen Sie unter realistischer gleichzeitiger Last mit Ihrem erwarteten Produktionsverkehrsmuster. Die Demo-Latenz von Anbietern ist immer der Bestfall einer Einzelanfrage.

Metrik	Was sie misst	Akzeptabler Schwellenwert	Wie zu messen
P50-Latenz	Mittlere Antwortzeit	< 400 ms bei einfachen Aufgaben	Lasttest bei 1x Produktionsvolumen
P95-Latenz	95. Perzentil — die Untergrenze der Nutzererfahrung	< 1.200 ms bei komplexen Aufgaben	Lasttest bei 2x Produktionsvolumen
P99-Latenz	Schlimmster Fall — die schlechtesten 1 % der Nutzer	< 3.000 ms (SLA-Obergrenze)	Lasttest bei 3x Produktionsvolumen
Time to First Token	Wahrgenommene Geschwindigkeit bei Streaming-Antworten	< 300 ms beim P95	TTFT getrennt von der Gesamtlatenz messen
Tokens/Sekunde	Generierungsdurchsatz pro Anfrage	> 40 Tokens/s für eine Echtzeit-UX	Token-Anzahl / gesamte Generierungszeit
Kapazität des Ratenlimits	Maximale gleichzeitige Anfragen / Tokens pro Minute	≥ 2x Spitzen-Produktionsvolumen	Dokumentation prüfen + Burst-Verhalten testen

Protokoll für Genauigkeitstests

Woche 1

Basisbewertung

Bewertungssatz mit identischen Prompts gegen jeden Anbieter ausführen
Genauigkeit, Latenz und Token-Anzahl pro Antwort erfassen
Offensichtliche Halluzinationen oder Formatfehler kennzeichnen

Woche 2

Prompt-Optimierung

Prompts für jeden Anbieter unabhängig optimieren
Genauigkeitsgewinn durch die Optimierung messen
Prompt-Engineering-Aufwand pro Anbieter dokumentieren

Woche 3

Stress- und Randfalltests

Adversariale Eingaben und bekannte Fehlermuster testen
Leistung bei Dokumenten mit langem Kontext messen
Verhalten an den Grenzen des Kontextfensters testen

Dimension 2 im Detail: Sicherheit und Compliance

Standardgewichtung: 20 %

Sicherheit und Compliance sind der häufigste Grund, warum die Auswahl eines KI-Anbieters nach der Festlegung scheitert. Diese Prüfungen müssen vor dem PoC erfolgen, nicht danach. Ein Anbieter, der die Compliance-Hürde nicht nimmt, wird unabhängig von der technischen Leistung ausgeschlossen.

SOC 2 Type II

Type II deckt einen Zeitraum von 6 bis 12 Monaten ab (keine Momentaufnahme)
Den vollständigen Bericht unter NDA anfordern — eine Zusammenfassung genügt nicht
Abgedeckte Trust Services Criteria prüfen: mindestens Security + Availability
Das Management-Schreiben auf offene Ausnahmen oder Einschränkungen prüfen
Glaubwürdigkeit der Prüfungsgesellschaft verifizieren (Big 4 oder anerkannter Spezialist)

ISO 27001

Prüfen, ob das Zertifikat aktuell und nicht abgelaufen ist
Den Geltungsbereich prüfen: deckt er die konkret genutzten Dienste ab?
Cloud-gehostete KI-Dienste sollten Anhang A.17 (Betriebskontinuität) umfassen
Zwischen einer ISO-27001-Zertifizierung und bloßen Compliance-Behauptungen unterscheiden
Wo relevant mit ISO 27017 (Cloud-Sicherheit) und ISO 27018 (PII in der Cloud) kombinieren

GDPR und Auftragsverarbeitung

Eine unterzeichnete DPA (Auftragsverarbeitungsvereinbarung) ist nach Art. 28 GDPR verpflichtend
Liste der Unterauftragsverarbeiter und Genehmigungsrechte bei deren Wechsel prüfen
Datenresidenz bestätigen: nur EU-Region, keine US-Übermittlung ohne SCCs
Lösch-SLA verifizieren: wie schnell werden Daten bei Kündigung oder auf Anfrage gelöscht?
Bestätigen, dass Prompts und Ausgaben niemals zum Modelltraining verwendet werden

Ausrichtung am EU AI Act

Ihren KI-Anwendungsfall den Risikokategorien des EU AI Act zuordnen
Hochrisiko-Anwendungsfälle (HR, Kredit, Gesundheit) erfordern Konformitätsbewertungen
Eine Anbietererklärung zu den GPAI-Modellpflichten (Transparenz, Urheberrecht) anfordern
Verifizieren, dass der Anbieter eine technische Dokumentation gemäß Art. 53 führt
Die Position des Anbieters zu den Meldepflichten bei Vorfällen nach Art. 62 prüfen

Optionen zur Datenresidenz nach großen Anbietern

Anbieter	EU-Region	Daten verlassen die EU nie	Self-Hosting-Option	DPA verfügbar
OpenAI (direkt)	Nicht verfügbar	Nein — US-Server	Nein	Ja (Enterprise)
OpenAI via Azure	Ja (Schweden, Frankreich, Niederlande)	Ja (PTU)	Nein	Ja (Azure DPA)
Anthropic (direkt)	Nicht verfügbar	Nein — US-Server	Nein	Ja (Enterprise)
Anthropic via Bedrock	Ja (Frankfurt, Irland)	Ja	Nein	Ja (AWS DPA)
Mistral (direkt)	Ja (Frankreich)	Ja — EU-nativ	Offene Gewichte	Ja (Standard)
Google Vertex AI	Ja (Belgien, Niederlande)	Ja (regionaler Endpunkt)	Nein	Ja (GCP DPA)

Dimension 3 im Detail: Gesamtbetriebskosten

Standardgewichtung: 15 %

Die TCO-Modellierung für KI-Anbieter umfasst 5 Kostenkategorien. Die meisten Teams budgetieren nur Kategorie 1. Das Gesamtbild liegt in der Regel beim 2- bis 3-Fachen der ursprünglichen Schätzungen. Erstellen Sie vor einer Festlegung ein Modell über 3 Jahre.

Category 1

API- und Inferenzkosten

Preis für Eingabe-Tokens × prognostiziertes monatliches Volumen an Eingabe-Tokens
Preis für Ausgabe-Tokens × prognostiziertes monatliches Volumen an Ausgabe-Tokens
Mengenrabattstufen — bei jeder Preisstufe modellieren
Abwägung zwischen zugesicherter Nutzung und nutzungsabhängiger Abrechnung bei Ihrem prognostizierten Volumen
Kosten für die Anhebung des Ratenlimits, falls Sie dedizierten Durchsatz benötigen

Dies ist die einzige Kostenart, die die meisten Teams in ihr Budget aufnehmen.

Category 2

Training und Anpassung

Fine-Tuning-Rechenleistung: Kosten eines Trainingslaufs pro Epoche × Anzahl der erwarteten Läufe
Fine-Tuning-Inferenz: feinabgestimmte Modelle kosten in der Regel das 2- bis 4-Fache der Basismodell-Inferenz
Bewertungs-Rechenleistung: Ausführung Ihrer Bewertungssuite bei jedem Modellversions-Update
Kosten für die Neuindizierung von Embeddings beim Wechsel oder Update der Embedding-Modelle
Datenaufbereitung und -kennzeichnung für Trainingssätze

Erhöht die API-Kosten für Teams mit Fine-Tuning in der Regel um 20 bis 40 %.

Category 3

Betrieblicher Aufwand

Engineering-Zeit für SDK-Integration, Prompt-Engineering und Wartung
Werkzeuge für Monitoring und Observability (LangSmith, Langfuse, Datadog LLM)
Multi-Regionen-Replikation für Latenz- oder Failover-Anforderungen
Abonnementkosten der Support-Stufe für ein Enterprise-SLA
Rechtliche Prüfung von Änderungen der Nutzungsbedingungen (2- bis 4-mal pro Jahr)

Häufig 30 bis 60 % der API-Kosten bei ausgereiften Produktionsbereitstellungen.

Category 4

Compliance und Sicherheit

SOC-2-Übergangsschreiben (Bridge Letters) und Bewertungen durch Dritte
Rechtliche Prüfung der GDPR-DPA und jährliche Neubewertung
Kosten für Penetrationstests und Sicherheitsbewertungen
Infrastruktur für Audit-Protokollierung und Speicher für die Aufbewahrung
Aufpreis für Datenresidenz (falls zutreffend)

Einmalige und jährlich wiederkehrende Kosten von insgesamt 10.000 bis 50.000 $/Jahr für regulierte Branchen.

Category 5

Migrations- und Ausstiegskosten

Engineering-Zeit zum Umschreiben von Prompts und Adaptern bei einem Anbieterwechsel
Regressionstests gegen Ihre Bewertungssuite nach der Migration
Kosten für den Parallelbetrieb während der Migrationsphase (2 Anbieter gleichzeitig)
Neueinbettung des gesamten Korpus beim Wechsel des Embedding-Anbieters
Ausfallrisiko und Umsatzeinfluss während des Migrationsfensters

Die am stärksten unterschätzte Kostenkategorie. Rechnen Sie bei einem Wechsel mitten im Projekt mit 3 bis 6 Monaten Migration.

Entscheidungsrahmen: selbst entwickeln, kaufen oder partnern

Kaufen (SaaS-API)

Am besten, wenn

Time-to-Market hat oberste Priorität
Dem Team fehlt Expertise in ML-Infrastruktur
Das Volumen liegt unter 5.000 $/Monat an API-Kosten
Der Anwendungsfall ist Standard (Zusammenfassung, Klassifikation)

Wesentliche Risiken

Anbieterabhängigkeit und Preisänderungen bei Skalierung
Daten verlassen Ihren Perimeter
Begrenzte Anpassung für domänenspezifische Aufgaben

Beispiele: OpenAI API, Anthropic API, Mistral API

Selbst entwickeln (Open Source selbst hosten)

Am besten, wenn

Das Volumen übersteigt 10.000 $/Monat an API-Kosten
Datensouveränität ist nicht verhandelbar
Tiefe Anpassung und Kontrolle über das Fine-Tuning erforderlich
Das Team verfügt über ML-Infrastruktur und DevOps-Fähigkeiten

Wesentliche Risiken

Hoher betrieblicher Aufwand und Verantwortung für die Zuverlässigkeit
GPU-Investitionen (Capex) oder Mietkosten
Last für Modell-Updates und Sicherheits-Patches liegt bei Ihrem Team

Beispiele: Llama 4, Mistral (offene Gewichte), Falcon, Gemma

Partnern (Cloud-KI-Plattform)

Am besten, wenn

Bereits stark in AWS, Azure oder GCP investiert
Enterprise-Compliance mit bestehenden Cloud-Verträgen erforderlich
Modellvielfalt gewünscht, ohne mehrere Anbieterbeziehungen zu verwalten
Verwaltete Werkzeuge für Fine-Tuning und Bewertung erforderlich

Wesentliche Risiken

Cloud-Plattform-Abhängigkeit zusätzlich zur Modellabhängigkeit
Modellverfügbarkeit hinkt den APIs der direkten Anbieter hinterher
Komplexe Preisgestaltung mit mehreren Dimensionen (Tokens + Rechenleistung + Speicher)

Beispiele: AWS Bedrock, Azure OpenAI Service, GCP Vertex AI

Die Vorlage für die Bewertungsmatrix

Ein durchgerechnetes Beispiel, das vier Anbieter für eine LLM-Bereitstellung in einem europäischen Großunternehmen vergleicht. Bewerten Sie jeden Anbieter je Dimension mit 1 bis 10, multiplizieren Sie mit der Dimensionsgewichtung und summieren Sie zum gewichteten Gesamtwert.

Formel: Weighted Total = Σ(Dimension Weight% × Score) / 10Note 1–3: erfüllt die Anforderungen nicht | 4–6: erfüllt teilweise | 7–9: erfüllt oder übertrifft | 10: außergewöhnlich

Dimension	Gewichtung	Anbieter AUS-Hyperscaler	Anbieter BCloud-Plattform	Anbieter CEU-nativ	Anbieter DOpen-Source-Hoster
Technische Leistung	25%	9/10(22.5)	8/10(20.0)	7/10(17.5)	6/10(15.0)
Sicherheit und Compliance	20%	5/10(10.0)	8/10(16.0)	10/10(20.0)	7/10(14.0)
Gesamtbetriebskosten	15%	6/10(9.0)	7/10(10.5)	8/10(12.0)	9/10(13.5)
Support und SLAs	10%	8/10(8.0)	9/10(9.0)	6/10(6.0)	5/10(5.0)
Integration und Ökosystem	10%	9/10(9.0)	7/10(7.0)	6/10(6.0)	5/10(5.0)
Roadmap und Stabilität des Anbieters	10%	8/10(8.0)	7/10(7.0)	9/10(9.0)	6/10(6.0)
Compliance und regulatorische Passung	5%	4/10(2.0)	7/10(3.5)	10/10(5.0)	8/10(4.0)
Ausstiegsstrategie und Portabilität	5%	4/10(2.0)	6/10(3.0)	9/10(4.5)	8/10(4.0)
Gewichteter Gesamtwert	100%	70.5	76.0	80.0Gewinner	66.5

Die Ergebnisse lesen

Anbieter C (EU-nativ) gewinnt trotz niedrigerer Werte bei technischer Leistung und Integration. Die hohe Gewichtung von Sicherheit und Compliance (20 %) und regulatorischer Passung (5 %) spiegelt den Unternehmenskontext wider. Ein Start-up ohne Compliance-Anforderungen hätte einen anderen Gewinner.

Stichregel: Liegen zwei Anbieter weniger als 5 Punkte auseinander, führen Sie einen 2-wöchigen Parallelpiloten mit Verkehr in Produktionsgröße durch. Die Matrix grenzt das Feld ein — reale Daten zu Ihrer Last treffen die endgültige Entscheidung.

Gewichtungsanpassung: Lassen Sie vor der Bewertung Ihre wichtigsten Stakeholder (CTO, CISO, CFO, DPO) die Gewichtungen unabhängig vergeben und bilden Sie dann den Durchschnitt oder verhandeln Sie. Unterschiedliche Gewichtungen ergeben unterschiedliche Gewinner — das Gespräch über die Gewichtung ist ebenso wichtig wie die Bewertung.

RFP-Vorlage: 25 Fragen, die Sie jedem Anbieter senden sollten

Senden Sie diese Fragen vor einem Pilotbetrieb an jeden in Betracht gezogenen Anbieter. Anbieter, die eine Antwort verweigern oder vage antworten, signalisieren Probleme. Verlangen Sie schriftliche Antworten — mündliche Antworten eines Vertriebsingenieurs sind vertraglich nicht bindend.

Technische Leistung

1Welche veröffentlichten Latenzziele für P50, P95 und P99 gelten für unsere erwartete Anfragegröße?
2Welchen Durchsatz (Tokens/Sekunde) können Sie auf einer dedizierten Stufe gegenüber gemeinsam genutzter Kapazität garantieren?
3Wie gehen Sie mit Latenzverschlechterung bei Spitzenlast um? Werfen Sie Last ab oder stellen Sie Anfragen in eine Warteschlange?
4Wie lautet Ihre Methodik zum Genauigkeits-Benchmark des Modells und wie validieren Sie sie an domänenspezifischen Daten?
5Wie kommunizieren Sie Modell-Updates, die das Ausgabeverhalten verändern könnten?

Sicherheit und Compliance

6Können Sie Ihren aktuellen SOC-2-Type-II-Bericht unter NDA bereitstellen?
7Verfügen Sie über ein ISO-27001-Zertifikat? Falls ja, welchen Geltungsbereich deckt es ab?
8Wie lauten Ihre Richtlinien zur Aufbewahrung und Löschung von API-Aufrufprotokollen, Prompt-Daten und Modellausgaben?
9Bieten Sie eine Auftragsverarbeitungsvereinbarung (DPA) gemäß Art. 28 GDPR an?
10Können Sie schriftlich bestätigen, dass unsere Prompts und Ausgaben ohne ausdrückliches Opt-in niemals zum Modelltraining verwendet werden?
11Welche Optionen zur EU-Datenresidenz bieten Sie an und in welchen Regionen?

Preisgestaltung und kommerzielle Konditionen

12Wie lautet Ihre vollständige Preisstruktur einschließlich Eingabe-Tokens, Ausgabe-Tokens, Fine-Tuning und Speicher?
13Sind Mengenrabatte verfügbar? Ab welcher Stufe und wie ist der Vertrag zur zugesicherten Nutzung strukturiert?
14Was geschieht mit der Preisgestaltung, wenn wir unser zugesichertes Volumen in einem Monat überschreiten?
15Gibt es Egress-, Datenübertragungs- oder API-Gateway-Gebühren, die nicht im Preis pro Token enthalten sind?
16Wie lauten die Konditionen für Enterprise-Support-Stufen und was umfasst jede davon?

Betrieb und Integration

17Wie lautet Ihr SLA für die API-Verfügbarkeit? Wie berechnen und vergüten Sie Ausfallzeiten?
18Wie handhaben Sie Erhöhungen des Ratenlimits bei Produktions-Verkehrsspitzen?
19Welche Observability und Protokollierung stellen Sie Kunden bereit (Token-Nutzung, Fehlerraten, Latenz)?
20Stellen Sie eine Staging-/Sandbox-Umgebung zum Testen bereit, die das Produktionsverhalten widerspiegelt?
21Welche SDKs unterstützen Sie offiziell und wie sieht Ihr Einstellungsprozess für SDK-Versionen aus?

Strategie und Ausstieg

22Wie lautet Ihre Roadmap für die nächsten 12 bis 18 Monate? Welche Modellfähigkeiten sind geplant?
23Wie lautet die Mindestankündigungsfrist, bevor eine von uns in Produktion genutzte Modellversion eingestellt wird?
24Wie können wir die Gewichte unseres feinabgestimmten Modells oder die Adapter-Schichten exportieren, falls wir uns für einen Wechsel entscheiden?
25Wie lautet der vertragliche Prozess für eine vorzeitige Kündigung der Vereinbarung und welche Garantien zur Datenlöschung gelten?
26Können Sie Referenzen von Kunden aus unserer Branche oder mit ähnlichen Compliance-Anforderungen vorlegen?

Wie Sie diese Fragen verwenden

Als formelle schriftliche RFP versenden, nicht als Fragen in einem Vertriebsgespräch

Eine Antwortfrist von 5 Arbeitstagen setzen

Jede Antwort mit 1 bis 3 bewerten (unzureichend, teilweise, vollständig)

Anbieter mit mehr als 3 unzureichenden Antworten in den Abschnitten Sicherheit/Compliance sollten ausgeschlossen werden

Nachweisdokumente (SOC-2-Bericht, DPA-Vorlage) zusammen mit den Antworten anfordern

Bei jeder vagen oder auf eine Vertragsverhandlung verschobenen Antwort nachfassen

Warnsignale: 12 Anzeichen, dass ein Anbieter Sie enttäuschen wird

Dies sind beobachtbare Signale, die stark mit Produktionsausfällen, Compliance-Problemen oder einer Verschlechterung der Beziehung korrelieren. Kritische Signale sind harte Stopps — fahren Sie nicht fort. Hohe Signale erfordern eine eingehende Untersuchung. Mittlere Signale sind Warnhinweise, die vertraglich zu steuern sind.

Nr.	Warnsignal	Schweregrad	Was es signalisiert
1	Keine öffentliche Statusseite oder historische Verfügbarkeitsdaten	Kritisch	Der Anbieter hat etwas zur Zuverlässigkeit zu verbergen. Jeder ernsthafte Produktionsanbieter veröffentlicht eine Vorfallhistorie.
2	Das Opt-out vom Training erfordert eine rechtliche Prüfung, keinen UI-Schalter	Kritisch	Ihre proprietären Prompts und Geschäftsdaten werden wahrscheinlich zum Modelltraining verwendet. Für Unternehmen nicht verhandelbar.
3	Kein SOC-2-Type-II-Bericht verfügbar (nur Type I)	Kritisch	Type I ist eine Momentaufnahme ohne Nachweis dauerhafter Kontrollen. Type II deckt einen Betriebszeitraum von 6 bis 12 Monaten ab.
4	Die GDPR-/DPA-Dokumentation erfordert eine Vertriebseskalation	Kritisch	Eine DPA sollte Self-Service oder Standard sein. Eskalationsanforderungen signalisieren entweder rechtliche Unreife oder bewusste Reibung.
5	Die Preisgestaltung erfordert für Informationen zur Basisstufe ein Vertriebsgespräch	Hoch	Versteckte Preise bedeuten meist, dass sie je nach wahrgenommenem Budget variieren, was Ihre Kostenprognose unberechenbar macht.
6	Ankündigungsfrist für die Modelleinstellung kürzer als 6 Monate	Hoch	Produktionssysteme lassen sich nicht sicher in unter 6 Monaten migrieren. Kurze Einstellungsfenster zerstören Engineering-Pläne.
7	Keine Self-Hosting- oder VPC-Bereitstellungsoption für die Enterprise-Stufe	Hoch	Für regulierte Branchen oder hochsensible Daten ist gemeinsame Mandantenfähigkeit oft inakzeptabel. Kein Self-Hosting = kein Deal.
8	Das SDK ist ein dünner REST-Wrapper ohne Retry-/Backoff-Logik	Hoch	Indikator für Engineering-Reife. Produktionsreife SDKs handhaben Retries, Streaming, Backoff bei Ratenlimits und Fehlerklassifizierung.
9	Ratenlimits nicht dokumentiert oder ohne vorherige Ankündigung geändert	Mittel	Undokumentierte oder volatile Ratenlimits machen Kapazitätsplanung unmöglich und verursachen unerwartete Produktionsausfälle.
10	Keine schriftliche Zusage zur Datenresidenz	Mittel	Mündliche Zusicherungen sind nicht durchsetzbar. Anforderungen an die Datenresidenz müssen in der DPA oder dem MSA stehen, nicht in einer Vertriebspräsentation.
11	Unternehmen vor weniger als 18 Monaten gegründet, ohne referenzierbare Enterprise-Kunden	Mittel	Anbieter in der Frühphase können pivotieren, das Geld ausgehen oder übernommen werden. Für eine KI-Produktionsinfrastruktur zählt Langlebigkeit.
12	Keine Ausstiegsklausel oder Garantie zur Datenlöschung im Standardvertrag	Mittel	Was geschieht bei Ihrem Weggang mit Ihren Daten und feinabgestimmten Modellen? Schweigt der Vertrag, rechnen Sie mit dem Schlimmsten.

Kritisch

Harter Stopp. Schließen Sie den Anbieter sofort aus, sofern Sie keine vertragliche Abhilfe erreichen können.

Hoch

Erfordern eine detaillierte Untersuchung und einen schriftlichen Minderungsplan, bevor Sie fortfahren.

Mittel

Warnsignal. Über vertragliche Schutzmaßnahmen oder eine dokumentierte Risikoakzeptanz steuern.

Auswahlprozess: von 20 Anbietern auf 3 Finalisten in 2 Wochen

Die meisten Anbieterbewertungen geraten ins Stocken, weil Teams zu viele Optionen parallel bewerten wollen. Dieser 2-wöchige Prozess nutzt eine schrittweise Ausscheidung, um effizient zu 3 qualifizierten Finalisten zu gelangen und den PoC-Aufwand für die Anbieter aufzusparen, die ihn wirklich verdienen.

Woche 1

Sondierung

Weites Netz auswerfen: 15 bis 20 Anbieter

Ergebnis: Longlist mit einzeiliger Qualifizierung

Werkzeug: Marktforschung, G2, Analystenberichte

Woche 1

MoSCoW-Filter

Harte Must-Have-Kriterien anwenden

Ergebnis: Automatisch ~60 % der Anbieter ausscheiden

Werkzeug: Compliance-Checkliste, Preisuntergrenze

Woche 2

Schreibtischrecherche

Die verbleibenden 6 bis 8 Anbieter vertieft prüfen

Ergebnis: Sicherheitshaltung, Preisgestaltung, Reife des Ökosystems

Werkzeug: Öffentliche Dokumentation, SOC-2-Anfragen, RFP-Versand

Woche 2

Demo und technisches Gespräch

30-minütiges Gespräch mit jedem Anbieter, die 25 RFP-Fragen stellen

Ergebnis: Antworten bewerten, Anbieter mit kritischen Warnsignalen ausscheiden

Werkzeug: Strukturierte Interviewvorlage

Woche 2

Bewertung und Shortlist

Die gewichtete Bewertungsmatrix auf die besten 3 bis 4 Anbieter anwenden

Ergebnis: Gerankte Shortlist mit 3 Finalisten für den PoC

Werkzeug: Bewertungsmatrix (siehe Abschnitt 6)

Kriterien des MoSCoW-Filters

Wenden Sie diese als binäre Bestehen/Durchfallen-Hürden an. Jeder Anbieter, der ein Must Have nicht erfüllt, wird sofort ausgeschlossen — ohne Ausnahmen.

Must Have (jedes Versagen = Ausschluss)

SOC-2-Type-II-Bericht verfügbar
GDPR-konforme DPA verfügbar
EU-Datenresidenz (falls von Ihrem DPO gefordert)
Veröffentlichte Preise (keine vertriebsgeschützten Basisstufen)
Verfügbarkeits-SLA ≥ 99,9 % im Vertrag
Opt-out vom Training als Standard-Kontoeinstellung

Should Have (höher bewerten, nicht ausschließen)

ISO-27001-Zertifikat
Dedizierte Enterprise-Support-Stufe
Self-Hosting- oder VPC-Bereitstellungsoption
Unterstützung von Fine-Tuning und Anpassung
Verfügbarkeit über mehrere Regionen
Modellportabilität und -export

Fallstudie: Wie eine europäische Bank ihren LLM-Anbieter ausgewählt hat

3-monatiger Prozess • 12 Anbieter bewertet • Entscheidungsbegründung dokumentiert

Eine paneuropäische Privatkundenbank mit Geschäft in 7 Ländern benötigte einen LLM-Anbieter für die interne Dokumentensuche und Vertragsanalyse. Mit 52.000 Dokumenten, PII-lastigen Inhalten und regulatorischen Anforderungen über mehrere Rechtsräume hinweg stand viel auf dem Spiel. So führte sie die Bewertung durch.

Bewertete Anbieter

Monate von Anfang bis Ende

PoC-Finalisten

Ausgewählter Anbieter

Monat 1

Sondierung und Anforderungen

Anwendungsfall definiert: interne Dokumentensuche und Vertragsanalyse (52.000 Dokumente)
Harte Anforderungen festgelegt: EU-Datenresidenz, GDPR-DPA, SOC 2 Type II, P95-Latenz < 800 ms
12 Kandidatenanbieter aus Marktforschung und bestehenden Cloud-Beziehungen identifiziert
MoSCoW-Filter angewendet — 5 Anbieter sofort ausgeschieden (keine EU-Residenz oder keine DPA)

Monat 2

PoC und technische Bewertung

4-wöchigen Parallel-PoC mit 3 Finalisten an einer repräsentativen Teilmenge von 500 Dokumenten durchgeführt
Gemessen: Extraktionsgenauigkeit bei IBAN-/Rechtsklauseln, P95-Latenz bei 50 Anfragen/s, Halluzinationsrate
Sicherheitsprüfung: SOC-2-Type-II-Berichte, DPA-Konditionen, Listen der Unterauftragsverarbeiter geprüft
TCO-Modellierung: prognostizierte Kosten über 3 Jahre einschließlich API, Fine-Tuning und Support-Stufen

Monat 3

Verhandlung und Auswahl

2 Anbieter in die engere Wahl genommen, weniger als 8 gewichtete Bewertungspunkte auseinander
2-wöchigen Stresstest mit Produktionsvolumen (Spitze 200 Anfragen/s) bei beiden Finalisten durchgeführt
Vertragliche Ausstiegsklausel verhandelt: 90 Tage Frist, vollständige Datenlöschung, Export der Modellgewichte
Endgültige Entscheidung: Der EU-native Anbieter gewann bei der Gewichtung der Datenresidenz (30 % der Bewertung) und den Ausstiegskonditionen

Begründung der endgültigen Entscheidung

Der ausgewählte Anbieter war ein Dienstleister mit Hauptsitz in Europa und nativer EU-Datenresidenz. Obwohl er bei den reinen Modellleistungs-Benchmarks an dritter Stelle lag, belegte er den ersten Platz, sobald die der Sicherheit und Compliance zugewiesene Gewichtung von 30 % angewendet wurde. Die beiden technisch überlegenen Anbieter hatten beide ihren Hauptsitz in den USA und boten zum Zeitpunkt der Bewertung keine auf die EU beschränkte Datenresidenzgarantie.

Die verhandelte vertragliche Ausstiegsklausel gab der Bank das Recht, alle feinabgestimmten Adapter zu exportieren und mit einer Frist von 90 Tagen den Anbieter zu wechseln. Diese einzelne Klausel senkte den Risikoaufschlag für die Migration im Risikomodell um 400.000 € — die Kosten eines angenommenen künftigen Migrations-Engineerings.

Ergebnis nach 12 Monaten: Die Bank verarbeitete im ersten Jahr 890.000 Dokumentenabfragen bei einem TCO 30 % unter den ursprünglichen Schätzungen. Der Anbieter weitete seine EU-Abdeckung aus, was die Beziehung weiter stärkte. Der strukturierte Bewertungsprozess wurde als Standard für alle künftigen Auswahlen von KI-Anbietern übernommen.

Nach der Auswahl: Anbietermanagement und SLA-Überwachung

Die Auswahl eines Anbieters ist der Anfang, nicht das Ende. Anbieterbeziehungen verschlechtern sich ohne aktives Management. Die Teams mit den besten Ergebnissen behandeln das Anbietermanagement als fortlaufende Disziplin mit regelmäßigem Rhythmus, dokumentierter SLA-Verfolgung und klaren Eskalationswegen.

SLA-Überwachungs-Dashboard: zentrale Metriken

Metrik	SLA-Ziel	Messung	Eskalationsauslöser
API-Verfügbarkeit	≥ 99,9 % monatlich	Synthetisches Monitoring alle 60 s aus der EU-Region	P1-Vorfall, wenn die Ausfallzeit > 15 Minuten beträgt
P95-Latenz	< 800 ms bei Standardanfragen	95. Perzentil der Antwortzeiten über ein gleitendes 24-h-Fenster	Alarm, wenn das P95 länger als 5 Minuten 1.200 ms überschreitet
Fehlerrate	< 0,5 % 5xx-Fehler pro Stunde	Fehlerrate über alle API-Endpunkte, ohne Client-Fehler	Eskalation an den Anbieter, wenn > 1 % über zwei aufeinanderfolgende Stunden
Spielraum beim Ratenlimit	≥ 30 % freie Kapazität gegenüber den vertraglichen Limits	Tägliche Spitzennutzung gegenüber der vertraglichen Obergrenze des Ratenlimits	Limiterhöhung anfordern, wenn der Spielraum an 5 aufeinanderfolgenden Tagen < 20 % beträgt
Kosten pro 1.000 API-Aufrufe	Innerhalb von 10 % der modellierten Basis	Gleitender 7-Tage-Durchschnitt gegenüber dem ursprünglichen TCO-Modell	Überprüfen und neu verhandeln, wenn dauerhaft > 20 % über der Basis
Vierteljährliches Geschäftsreview	Alle 90 Tage abgehalten	Aktualisierung der Anbieter-Roadmap, Vorfallreview, Preisreview, SLA-Compliance-Bericht	Formelles Leistungsreview auslösen, wenn ein kritisches SLA verfehlt wird

Rhythmus des Anbietermanagements

TäglichAutomatisierte SLA-Überwachungsalarme — Verfügbarkeit, Latenz, Fehlerrate

WöchentlichInterne Überprüfung des Kosten-pro-Anfrage-Trends und des Spielraums beim Ratenlimit

MonatlichÜberprüfung der Anbieter-Statusseite, Post-mortem für jedes P1-Ereignis

VierteljährlichQBR mit dem Anbieter: Roadmap-Update, Preisreview, SLA-Compliance-Bericht

JährlichVollständige Neubewertung: Bewertungsmatrix erneut ausführen, Marktalternativen bewerten, Vertrag neu verhandeln

Checkliste für die Vertragsverlängerung

Beginnen Sie 3 Monate vor der Vertragsverlängerung. Dies ist Ihr Verhandlungsfenster.

Gewichtete Bewertungsmatrix mit den Marktdaten des laufenden Jahres erneut ausführen
Aktuellen SOC-2-Type-II-Bericht anfordern
2 bis 3 alternative Anbieter benchmarken, um eine Verhandlungsposition aufzubauen
Einstellungsmitteilungen des Anbieters prüfen — sind Modelle gefährdet, von denen Sie abhängen?
Vollständige TCO der letzten 12 Monate gegenüber dem ursprünglichen Modell berechnen
DPA auf etwaige Konditionsänderungen der letzten 12 Monate prüfen
Verhandeln: Mengenzusagen für bessere Preise, besseres SLA, längere Ankündigungsfristen
Ausstiegsklausel aktualisieren: sicherstellen, dass Lösch-SLA und Rechte zur Modellportabilität aktuell sind

Strategie zur Mehr-Anbieter-Abstraktion

Der mit Abstand wirksamste Weg, die Anbieterabhängigkeit zu verringern, ist, Ihre LLM-Aufrufe von Tag eins an hinter einer Routing-Schicht zu abstrahieren. Das sind 1 bis 3 Tage Engineering-Investition, die Monate an Migrationsrisiko eliminieren.

Open-Source-Routing-Optionen

LiteLLM — einheitliche API für über 100 Anbieter
Portkey — Gateway mit Observability und Fallbacks
OpenRouter — Marktplatz-Routing mit Kostenoptimierung
Eigene Abstraktionsschicht mit Anbieterschnittstelle

Was Ihnen die Abstraktion bringt

Den Hauptanbieter wechseln, ohne den Anwendungscode umzuschreiben
Bei Ratenlimit oder Ausfall automatisch einen Fallback-Anbieter ausführen
Zwei Anbieter im A/B-Test auf Live-Verkehr prüfen
Zur Anfragezeit dynamisch nach Kosten und Qualität routen

Brauchen Sie Hilfe bei der Durchführung Ihrer KI-Anbieterbewertung?

Ich unterstütze CTOs und Engineering-Verantwortliche bei strukturierten Anbieterbewertungen — von der Anforderungsdefinition über das PoC-Design, die Bewertung bis zur Vertragsverhandlung. Sie erhalten einen objektiven Rahmen und jemanden, der dieselben Fehler schon 50-mal gesehen hat.

Matrix zur Auswahl von KI-Anbietern und -Modellen

11 Abschnitte

Durchgängige Abdeckung

35 Min. Lesezeit

Mit Vorlagen und Tabellen

25 RFP-Fragen

Versandfertig

Aktualisiert im März 2026

Großunternehmen und Mittelstand

Bewertungsprozess von 2 Wochen

Warum die Auswahl von KI-Anbietern scheitert — das Muster des 2-Mio.-Dollar-Fehlers

Abhängigkeitsrisiko

Hype vs. Realität

Die verborgenen 60 %

Die drei Fehlermuster nach Häufigkeit

47%

Compliance-Diskrepanz

Der Anbieter kann die bei der rechtlichen Prüfung entdeckten Anforderungen an Datenresidenz oder Regulatorik nicht erfüllen — nach der Festlegung

31%

Kostenüberschreitung

Versteckte Gebühren, Preisänderungen oder Nutzungswachstum, die in der ursprünglichen TCO-Analyse nicht modelliert wurden, führen zur Budgetüberschreitung

22%

Leistungslücke

Modellqualität oder Latenz in der Produktion entsprechen nicht der Demo oder dem Benchmark und erfordern eine kostspielige Migration

Die 8 Bewertungsdimensionen

Die Gewichtungen müssen sich auf 100 summieren. Die Abschnitte 3, 4 und 5 vertiefen die drei am stärksten gewichteten Dimensionen.

Technische Leistung

Modellqualität bei Ihren spezifischen Aufgaben, Latenz, Durchsatz und Genauigkeit unter realistischen Bedingungen.

25%

Sicherheit und Compliance

Zertifizierungen (SOC 2, ISO 27001, HIPAA), Datenresidenz, GDPR-Haltung, Ausrichtung am EU AI Act.

20%

Gesamtbetriebskosten

API-Preisgestaltung, Trainingskosten, versteckte Gebühren, Egress, Support-Stufen und Migrations-Engineering-Aufwand.

15%

Support und SLAs

Verfügbarkeitsgarantien, Reaktionszeiten des Supports, dedizierter CSM, Verfügbarkeit einer Enterprise-Stufe.

10%

Integration und Ökosystem

SDK-Qualität, Framework-Kompatibilität (LangChain, LlamaIndex), CI/CD-Integration, Dokumentation.

10%

Roadmap und Stabilität des Anbieters

Finanzielle Reserven, Veröffentlichungsrhythmus der Modelle, Einstellungsrichtlinie, Ausrichtung an Ihrer Produkt-Roadmap.

10%

Compliance und regulatorische Passung

Branchenspezifische Anforderungen — HIPAA im Gesundheitswesen, PCI-DSS im Fintech, Risikoeinstufung nach dem EU AI Act.

Ausstiegsstrategie und Portabilität

Mechanismen für den Datenexport, Modellportabilität, Migrationspfad, vertragliche Ausstiegsklauseln.

Ablaufdiagramm des Bewertungsprozesses

flowchart TD
    A([Start: Vendor Evaluation]) --> B[Discovery & Requirements]
    B --> B1[Define use case & constraints]
    B --> B2[Set must-have criteria]
    B --> B3[Identify 15-20 candidate vendors]
    B1 & B2 & B3 --> C[Initial Shortlist]
    C --> C1[Apply MoSCoW filter]
    C1 --> C2{Passes must-haves?}
    C2 -- No --> X1[Eliminate]
    C2 -- Yes --> D[PoC / Pilot Phase]
    D --> D1[Technical benchmark on your data]
    D --> D2[Security review & DPA check]
    D --> D3[Pricing & TCO modelling]
    D1 & D2 & D3 --> E[Weighted Scoring Matrix]
    E --> E1[Score top 3 vendors]
    E1 --> F[Commercial Negotiation]
    F --> F1[SLA terms]
    F --> F2[Data processing agreement]
    F --> F3[Exit clause negotiation]
    F1 & F2 & F3 --> G([Vendor Selected])
    style A fill:#1a1a2e,stroke:#7c3aed,color:#e2e8f0
    style B fill:#1e293b,stroke:#475569,color:#e2e8f0
    style B1 fill:#1e293b,stroke:#475569,color:#e2e8f0
    style B2 fill:#1e293b,stroke:#475569,color:#e2e8f0
    style B3 fill:#1e293b,stroke:#475569,color:#e2e8f0
    style C fill:#1e293b,stroke:#6366f1,color:#e2e8f0
    style C1 fill:#1e293b,stroke:#475569,color:#e2e8f0
    style C2 fill:#1e1b4b,stroke:#6366f1,color:#e2e8f0
    style D fill:#1e293b,stroke:#3b82f6,color:#e2e8f0
    style D1 fill:#1e293b,stroke:#475569,color:#e2e8f0
    style D2 fill:#1e293b,stroke:#475569,color:#e2e8f0
    style D3 fill:#1e293b,stroke:#475569,color:#e2e8f0
    style E fill:#1e293b,stroke:#8b5cf6,color:#e2e8f0
    style E1 fill:#1e293b,stroke:#475569,color:#e2e8f0
    style F fill:#1e293b,stroke:#f59e0b,color:#e2e8f0
    style F1 fill:#1e293b,stroke:#475569,color:#e2e8f0
    style F2 fill:#1e293b,stroke:#475569,color:#e2e8f0
    style F3 fill:#1e293b,stroke:#475569,color:#e2e8f0
    style X1 fill:#1f0d0d,stroke:#ef4444,color:#e2e8f0
    style G fill:#0d1f12,stroke:#22c55e,color:#e2e8f0

Dimension 1 im Detail: Technische Leistung

Standardgewichtung: 25 %

Benchmark-Methodik

Aufbau des Bewertungssatzes

100 bis 500 Beispiele aus echten Produktionsdaten
Randfälle und bekannte Fehlermuster einbeziehen
Leichte, mittlere und schwere Schwierigkeit abdecken
Für Ihren Anwendungsfall relevante adversariale Prompts einbeziehen
Ground-Truth-Labels mit menschlichen Annotatoren erstellen

Genauigkeitsmetriken nach Aufgabentyp

Extraktion: F1-Score zur Genauigkeit von Entität/Wert
Klassifikation: Precision, Recall, F1 pro Klasse
Generierung: menschliche Bewertung + ROUGE/BERTScore
Schlussfolgern: Pass@1 und Pass@3 bei Logikaufgaben
Halluzinationsrate: Überprüfung faktischer Aussagen

Latenz- und Durchsatzmetriken

Metrik	Was sie misst	Akzeptabler Schwellenwert	Wie zu messen
P50-Latenz	Mittlere Antwortzeit	< 400 ms bei einfachen Aufgaben	Lasttest bei 1x Produktionsvolumen
P95-Latenz	95. Perzentil — die Untergrenze der Nutzererfahrung	< 1.200 ms bei komplexen Aufgaben	Lasttest bei 2x Produktionsvolumen
P99-Latenz	Schlimmster Fall — die schlechtesten 1 % der Nutzer	< 3.000 ms (SLA-Obergrenze)	Lasttest bei 3x Produktionsvolumen
Time to First Token	Wahrgenommene Geschwindigkeit bei Streaming-Antworten	< 300 ms beim P95	TTFT getrennt von der Gesamtlatenz messen
Tokens/Sekunde	Generierungsdurchsatz pro Anfrage	> 40 Tokens/s für eine Echtzeit-UX	Token-Anzahl / gesamte Generierungszeit
Kapazität des Ratenlimits	Maximale gleichzeitige Anfragen / Tokens pro Minute	≥ 2x Spitzen-Produktionsvolumen	Dokumentation prüfen + Burst-Verhalten testen

Protokoll für Genauigkeitstests

Woche 1

Basisbewertung

Bewertungssatz mit identischen Prompts gegen jeden Anbieter ausführen
Genauigkeit, Latenz und Token-Anzahl pro Antwort erfassen
Offensichtliche Halluzinationen oder Formatfehler kennzeichnen

Woche 2

Prompt-Optimierung

Prompts für jeden Anbieter unabhängig optimieren
Genauigkeitsgewinn durch die Optimierung messen
Prompt-Engineering-Aufwand pro Anbieter dokumentieren

Woche 3

Stress- und Randfalltests

Adversariale Eingaben und bekannte Fehlermuster testen
Leistung bei Dokumenten mit langem Kontext messen
Verhalten an den Grenzen des Kontextfensters testen

Dimension 2 im Detail: Sicherheit und Compliance

Standardgewichtung: 20 %

SOC 2 Type II

Type II deckt einen Zeitraum von 6 bis 12 Monaten ab (keine Momentaufnahme)
Den vollständigen Bericht unter NDA anfordern — eine Zusammenfassung genügt nicht
Abgedeckte Trust Services Criteria prüfen: mindestens Security + Availability
Das Management-Schreiben auf offene Ausnahmen oder Einschränkungen prüfen
Glaubwürdigkeit der Prüfungsgesellschaft verifizieren (Big 4 oder anerkannter Spezialist)

ISO 27001

Prüfen, ob das Zertifikat aktuell und nicht abgelaufen ist
Den Geltungsbereich prüfen: deckt er die konkret genutzten Dienste ab?
Cloud-gehostete KI-Dienste sollten Anhang A.17 (Betriebskontinuität) umfassen
Zwischen einer ISO-27001-Zertifizierung und bloßen Compliance-Behauptungen unterscheiden
Wo relevant mit ISO 27017 (Cloud-Sicherheit) und ISO 27018 (PII in der Cloud) kombinieren

GDPR und Auftragsverarbeitung

Eine unterzeichnete DPA (Auftragsverarbeitungsvereinbarung) ist nach Art. 28 GDPR verpflichtend
Liste der Unterauftragsverarbeiter und Genehmigungsrechte bei deren Wechsel prüfen
Datenresidenz bestätigen: nur EU-Region, keine US-Übermittlung ohne SCCs
Lösch-SLA verifizieren: wie schnell werden Daten bei Kündigung oder auf Anfrage gelöscht?
Bestätigen, dass Prompts und Ausgaben niemals zum Modelltraining verwendet werden

Ausrichtung am EU AI Act

Ihren KI-Anwendungsfall den Risikokategorien des EU AI Act zuordnen
Hochrisiko-Anwendungsfälle (HR, Kredit, Gesundheit) erfordern Konformitätsbewertungen
Eine Anbietererklärung zu den GPAI-Modellpflichten (Transparenz, Urheberrecht) anfordern
Verifizieren, dass der Anbieter eine technische Dokumentation gemäß Art. 53 führt
Die Position des Anbieters zu den Meldepflichten bei Vorfällen nach Art. 62 prüfen

Optionen zur Datenresidenz nach großen Anbietern

Anbieter	EU-Region	Daten verlassen die EU nie	Self-Hosting-Option	DPA verfügbar
OpenAI (direkt)	Nicht verfügbar	Nein — US-Server	Nein	Ja (Enterprise)
OpenAI via Azure	Ja (Schweden, Frankreich, Niederlande)	Ja (PTU)	Nein	Ja (Azure DPA)
Anthropic (direkt)	Nicht verfügbar	Nein — US-Server	Nein	Ja (Enterprise)
Anthropic via Bedrock	Ja (Frankfurt, Irland)	Ja	Nein	Ja (AWS DPA)
Mistral (direkt)	Ja (Frankreich)	Ja — EU-nativ	Offene Gewichte	Ja (Standard)
Google Vertex AI	Ja (Belgien, Niederlande)	Ja (regionaler Endpunkt)	Nein	Ja (GCP DPA)

Dimension 3 im Detail: Gesamtbetriebskosten

Standardgewichtung: 15 %

Category 1

API- und Inferenzkosten

Preis für Eingabe-Tokens × prognostiziertes monatliches Volumen an Eingabe-Tokens
Preis für Ausgabe-Tokens × prognostiziertes monatliches Volumen an Ausgabe-Tokens
Mengenrabattstufen — bei jeder Preisstufe modellieren
Abwägung zwischen zugesicherter Nutzung und nutzungsabhängiger Abrechnung bei Ihrem prognostizierten Volumen
Kosten für die Anhebung des Ratenlimits, falls Sie dedizierten Durchsatz benötigen

Dies ist die einzige Kostenart, die die meisten Teams in ihr Budget aufnehmen.

Category 2

Training und Anpassung

Fine-Tuning-Rechenleistung: Kosten eines Trainingslaufs pro Epoche × Anzahl der erwarteten Läufe
Fine-Tuning-Inferenz: feinabgestimmte Modelle kosten in der Regel das 2- bis 4-Fache der Basismodell-Inferenz
Bewertungs-Rechenleistung: Ausführung Ihrer Bewertungssuite bei jedem Modellversions-Update
Kosten für die Neuindizierung von Embeddings beim Wechsel oder Update der Embedding-Modelle
Datenaufbereitung und -kennzeichnung für Trainingssätze

Erhöht die API-Kosten für Teams mit Fine-Tuning in der Regel um 20 bis 40 %.

Category 3

Betrieblicher Aufwand

Engineering-Zeit für SDK-Integration, Prompt-Engineering und Wartung
Werkzeuge für Monitoring und Observability (LangSmith, Langfuse, Datadog LLM)
Multi-Regionen-Replikation für Latenz- oder Failover-Anforderungen
Abonnementkosten der Support-Stufe für ein Enterprise-SLA
Rechtliche Prüfung von Änderungen der Nutzungsbedingungen (2- bis 4-mal pro Jahr)

Häufig 30 bis 60 % der API-Kosten bei ausgereiften Produktionsbereitstellungen.

Category 4

Compliance und Sicherheit

SOC-2-Übergangsschreiben (Bridge Letters) und Bewertungen durch Dritte
Rechtliche Prüfung der GDPR-DPA und jährliche Neubewertung
Kosten für Penetrationstests und Sicherheitsbewertungen
Infrastruktur für Audit-Protokollierung und Speicher für die Aufbewahrung
Aufpreis für Datenresidenz (falls zutreffend)

Einmalige und jährlich wiederkehrende Kosten von insgesamt 10.000 bis 50.000 $/Jahr für regulierte Branchen.

Category 5

Migrations- und Ausstiegskosten

Engineering-Zeit zum Umschreiben von Prompts und Adaptern bei einem Anbieterwechsel
Regressionstests gegen Ihre Bewertungssuite nach der Migration
Kosten für den Parallelbetrieb während der Migrationsphase (2 Anbieter gleichzeitig)
Neueinbettung des gesamten Korpus beim Wechsel des Embedding-Anbieters
Ausfallrisiko und Umsatzeinfluss während des Migrationsfensters

Die am stärksten unterschätzte Kostenkategorie. Rechnen Sie bei einem Wechsel mitten im Projekt mit 3 bis 6 Monaten Migration.

Entscheidungsrahmen: selbst entwickeln, kaufen oder partnern

Kaufen (SaaS-API)

Am besten, wenn

Time-to-Market hat oberste Priorität
Dem Team fehlt Expertise in ML-Infrastruktur
Das Volumen liegt unter 5.000 $/Monat an API-Kosten
Der Anwendungsfall ist Standard (Zusammenfassung, Klassifikation)

Wesentliche Risiken

Anbieterabhängigkeit und Preisänderungen bei Skalierung
Daten verlassen Ihren Perimeter
Begrenzte Anpassung für domänenspezifische Aufgaben

Beispiele: OpenAI API, Anthropic API, Mistral API

Selbst entwickeln (Open Source selbst hosten)

Am besten, wenn

Das Volumen übersteigt 10.000 $/Monat an API-Kosten
Datensouveränität ist nicht verhandelbar
Tiefe Anpassung und Kontrolle über das Fine-Tuning erforderlich
Das Team verfügt über ML-Infrastruktur und DevOps-Fähigkeiten

Wesentliche Risiken

Hoher betrieblicher Aufwand und Verantwortung für die Zuverlässigkeit
GPU-Investitionen (Capex) oder Mietkosten
Last für Modell-Updates und Sicherheits-Patches liegt bei Ihrem Team

Beispiele: Llama 4, Mistral (offene Gewichte), Falcon, Gemma

Partnern (Cloud-KI-Plattform)

Am besten, wenn

Bereits stark in AWS, Azure oder GCP investiert
Enterprise-Compliance mit bestehenden Cloud-Verträgen erforderlich
Modellvielfalt gewünscht, ohne mehrere Anbieterbeziehungen zu verwalten
Verwaltete Werkzeuge für Fine-Tuning und Bewertung erforderlich

Wesentliche Risiken

Cloud-Plattform-Abhängigkeit zusätzlich zur Modellabhängigkeit
Modellverfügbarkeit hinkt den APIs der direkten Anbieter hinterher
Komplexe Preisgestaltung mit mehreren Dimensionen (Tokens + Rechenleistung + Speicher)

Beispiele: AWS Bedrock, Azure OpenAI Service, GCP Vertex AI

Die Vorlage für die Bewertungsmatrix

Formel: Weighted Total = Σ(Dimension Weight% × Score) / 10Note 1–3: erfüllt die Anforderungen nicht | 4–6: erfüllt teilweise | 7–9: erfüllt oder übertrifft | 10: außergewöhnlich

Dimension	Gewichtung	Anbieter AUS-Hyperscaler	Anbieter BCloud-Plattform	Anbieter CEU-nativ	Anbieter DOpen-Source-Hoster
Technische Leistung	25%	9/10(22.5)	8/10(20.0)	7/10(17.5)	6/10(15.0)
Sicherheit und Compliance	20%	5/10(10.0)	8/10(16.0)	10/10(20.0)	7/10(14.0)
Gesamtbetriebskosten	15%	6/10(9.0)	7/10(10.5)	8/10(12.0)	9/10(13.5)
Support und SLAs	10%	8/10(8.0)	9/10(9.0)	6/10(6.0)	5/10(5.0)
Integration und Ökosystem	10%	9/10(9.0)	7/10(7.0)	6/10(6.0)	5/10(5.0)
Roadmap und Stabilität des Anbieters	10%	8/10(8.0)	7/10(7.0)	9/10(9.0)	6/10(6.0)
Compliance und regulatorische Passung	5%	4/10(2.0)	7/10(3.5)	10/10(5.0)	8/10(4.0)
Ausstiegsstrategie und Portabilität	5%	4/10(2.0)	6/10(3.0)	9/10(4.5)	8/10(4.0)
Gewichteter Gesamtwert	100%	70.5	76.0	80.0Gewinner	66.5

Die Ergebnisse lesen

RFP-Vorlage: 25 Fragen, die Sie jedem Anbieter senden sollten

Technische Leistung

1Welche veröffentlichten Latenzziele für P50, P95 und P99 gelten für unsere erwartete Anfragegröße?
2Welchen Durchsatz (Tokens/Sekunde) können Sie auf einer dedizierten Stufe gegenüber gemeinsam genutzter Kapazität garantieren?
3Wie gehen Sie mit Latenzverschlechterung bei Spitzenlast um? Werfen Sie Last ab oder stellen Sie Anfragen in eine Warteschlange?
4Wie lautet Ihre Methodik zum Genauigkeits-Benchmark des Modells und wie validieren Sie sie an domänenspezifischen Daten?
5Wie kommunizieren Sie Modell-Updates, die das Ausgabeverhalten verändern könnten?

Sicherheit und Compliance

6Können Sie Ihren aktuellen SOC-2-Type-II-Bericht unter NDA bereitstellen?
7Verfügen Sie über ein ISO-27001-Zertifikat? Falls ja, welchen Geltungsbereich deckt es ab?
8Wie lauten Ihre Richtlinien zur Aufbewahrung und Löschung von API-Aufrufprotokollen, Prompt-Daten und Modellausgaben?
9Bieten Sie eine Auftragsverarbeitungsvereinbarung (DPA) gemäß Art. 28 GDPR an?
10Können Sie schriftlich bestätigen, dass unsere Prompts und Ausgaben ohne ausdrückliches Opt-in niemals zum Modelltraining verwendet werden?
11Welche Optionen zur EU-Datenresidenz bieten Sie an und in welchen Regionen?

Preisgestaltung und kommerzielle Konditionen

12Wie lautet Ihre vollständige Preisstruktur einschließlich Eingabe-Tokens, Ausgabe-Tokens, Fine-Tuning und Speicher?
13Sind Mengenrabatte verfügbar? Ab welcher Stufe und wie ist der Vertrag zur zugesicherten Nutzung strukturiert?
14Was geschieht mit der Preisgestaltung, wenn wir unser zugesichertes Volumen in einem Monat überschreiten?
15Gibt es Egress-, Datenübertragungs- oder API-Gateway-Gebühren, die nicht im Preis pro Token enthalten sind?
16Wie lauten die Konditionen für Enterprise-Support-Stufen und was umfasst jede davon?

Betrieb und Integration

17Wie lautet Ihr SLA für die API-Verfügbarkeit? Wie berechnen und vergüten Sie Ausfallzeiten?
18Wie handhaben Sie Erhöhungen des Ratenlimits bei Produktions-Verkehrsspitzen?
19Welche Observability und Protokollierung stellen Sie Kunden bereit (Token-Nutzung, Fehlerraten, Latenz)?
20Stellen Sie eine Staging-/Sandbox-Umgebung zum Testen bereit, die das Produktionsverhalten widerspiegelt?
21Welche SDKs unterstützen Sie offiziell und wie sieht Ihr Einstellungsprozess für SDK-Versionen aus?

Strategie und Ausstieg

22Wie lautet Ihre Roadmap für die nächsten 12 bis 18 Monate? Welche Modellfähigkeiten sind geplant?
23Wie lautet die Mindestankündigungsfrist, bevor eine von uns in Produktion genutzte Modellversion eingestellt wird?
24Wie können wir die Gewichte unseres feinabgestimmten Modells oder die Adapter-Schichten exportieren, falls wir uns für einen Wechsel entscheiden?
25Wie lautet der vertragliche Prozess für eine vorzeitige Kündigung der Vereinbarung und welche Garantien zur Datenlöschung gelten?
26Können Sie Referenzen von Kunden aus unserer Branche oder mit ähnlichen Compliance-Anforderungen vorlegen?

Wie Sie diese Fragen verwenden

Als formelle schriftliche RFP versenden, nicht als Fragen in einem Vertriebsgespräch

Eine Antwortfrist von 5 Arbeitstagen setzen

Jede Antwort mit 1 bis 3 bewerten (unzureichend, teilweise, vollständig)

Anbieter mit mehr als 3 unzureichenden Antworten in den Abschnitten Sicherheit/Compliance sollten ausgeschlossen werden

Nachweisdokumente (SOC-2-Bericht, DPA-Vorlage) zusammen mit den Antworten anfordern

Bei jeder vagen oder auf eine Vertragsverhandlung verschobenen Antwort nachfassen

Warnsignale: 12 Anzeichen, dass ein Anbieter Sie enttäuschen wird

Nr.	Warnsignal	Schweregrad	Was es signalisiert
1	Keine öffentliche Statusseite oder historische Verfügbarkeitsdaten	Kritisch	Der Anbieter hat etwas zur Zuverlässigkeit zu verbergen. Jeder ernsthafte Produktionsanbieter veröffentlicht eine Vorfallhistorie.
2	Das Opt-out vom Training erfordert eine rechtliche Prüfung, keinen UI-Schalter	Kritisch	Ihre proprietären Prompts und Geschäftsdaten werden wahrscheinlich zum Modelltraining verwendet. Für Unternehmen nicht verhandelbar.
3	Kein SOC-2-Type-II-Bericht verfügbar (nur Type I)	Kritisch	Type I ist eine Momentaufnahme ohne Nachweis dauerhafter Kontrollen. Type II deckt einen Betriebszeitraum von 6 bis 12 Monaten ab.
4	Die GDPR-/DPA-Dokumentation erfordert eine Vertriebseskalation	Kritisch	Eine DPA sollte Self-Service oder Standard sein. Eskalationsanforderungen signalisieren entweder rechtliche Unreife oder bewusste Reibung.
5	Die Preisgestaltung erfordert für Informationen zur Basisstufe ein Vertriebsgespräch	Hoch	Versteckte Preise bedeuten meist, dass sie je nach wahrgenommenem Budget variieren, was Ihre Kostenprognose unberechenbar macht.
6	Ankündigungsfrist für die Modelleinstellung kürzer als 6 Monate	Hoch	Produktionssysteme lassen sich nicht sicher in unter 6 Monaten migrieren. Kurze Einstellungsfenster zerstören Engineering-Pläne.
7	Keine Self-Hosting- oder VPC-Bereitstellungsoption für die Enterprise-Stufe	Hoch	Für regulierte Branchen oder hochsensible Daten ist gemeinsame Mandantenfähigkeit oft inakzeptabel. Kein Self-Hosting = kein Deal.
8	Das SDK ist ein dünner REST-Wrapper ohne Retry-/Backoff-Logik	Hoch	Indikator für Engineering-Reife. Produktionsreife SDKs handhaben Retries, Streaming, Backoff bei Ratenlimits und Fehlerklassifizierung.
9	Ratenlimits nicht dokumentiert oder ohne vorherige Ankündigung geändert	Mittel	Undokumentierte oder volatile Ratenlimits machen Kapazitätsplanung unmöglich und verursachen unerwartete Produktionsausfälle.
10	Keine schriftliche Zusage zur Datenresidenz	Mittel	Mündliche Zusicherungen sind nicht durchsetzbar. Anforderungen an die Datenresidenz müssen in der DPA oder dem MSA stehen, nicht in einer Vertriebspräsentation.
11	Unternehmen vor weniger als 18 Monaten gegründet, ohne referenzierbare Enterprise-Kunden	Mittel	Anbieter in der Frühphase können pivotieren, das Geld ausgehen oder übernommen werden. Für eine KI-Produktionsinfrastruktur zählt Langlebigkeit.
12	Keine Ausstiegsklausel oder Garantie zur Datenlöschung im Standardvertrag	Mittel	Was geschieht bei Ihrem Weggang mit Ihren Daten und feinabgestimmten Modellen? Schweigt der Vertrag, rechnen Sie mit dem Schlimmsten.

Kritisch

Harter Stopp. Schließen Sie den Anbieter sofort aus, sofern Sie keine vertragliche Abhilfe erreichen können.

Hoch

Erfordern eine detaillierte Untersuchung und einen schriftlichen Minderungsplan, bevor Sie fortfahren.

Mittel

Warnsignal. Über vertragliche Schutzmaßnahmen oder eine dokumentierte Risikoakzeptanz steuern.

Auswahlprozess: von 20 Anbietern auf 3 Finalisten in 2 Wochen

Woche 1

Sondierung

Weites Netz auswerfen: 15 bis 20 Anbieter

Ergebnis: Longlist mit einzeiliger Qualifizierung

Werkzeug: Marktforschung, G2, Analystenberichte

Woche 1

MoSCoW-Filter

Harte Must-Have-Kriterien anwenden

Ergebnis: Automatisch ~60 % der Anbieter ausscheiden

Werkzeug: Compliance-Checkliste, Preisuntergrenze

Woche 2

Schreibtischrecherche

Die verbleibenden 6 bis 8 Anbieter vertieft prüfen

Ergebnis: Sicherheitshaltung, Preisgestaltung, Reife des Ökosystems

Werkzeug: Öffentliche Dokumentation, SOC-2-Anfragen, RFP-Versand

Woche 2

Demo und technisches Gespräch

30-minütiges Gespräch mit jedem Anbieter, die 25 RFP-Fragen stellen

Ergebnis: Antworten bewerten, Anbieter mit kritischen Warnsignalen ausscheiden

Werkzeug: Strukturierte Interviewvorlage

Woche 2

Bewertung und Shortlist

Die gewichtete Bewertungsmatrix auf die besten 3 bis 4 Anbieter anwenden

Ergebnis: Gerankte Shortlist mit 3 Finalisten für den PoC

Werkzeug: Bewertungsmatrix (siehe Abschnitt 6)

Kriterien des MoSCoW-Filters

Wenden Sie diese als binäre Bestehen/Durchfallen-Hürden an. Jeder Anbieter, der ein Must Have nicht erfüllt, wird sofort ausgeschlossen — ohne Ausnahmen.

Must Have (jedes Versagen = Ausschluss)

SOC-2-Type-II-Bericht verfügbar
GDPR-konforme DPA verfügbar
EU-Datenresidenz (falls von Ihrem DPO gefordert)
Veröffentlichte Preise (keine vertriebsgeschützten Basisstufen)
Verfügbarkeits-SLA ≥ 99,9 % im Vertrag
Opt-out vom Training als Standard-Kontoeinstellung

Should Have (höher bewerten, nicht ausschließen)

ISO-27001-Zertifikat
Dedizierte Enterprise-Support-Stufe
Self-Hosting- oder VPC-Bereitstellungsoption
Unterstützung von Fine-Tuning und Anpassung
Verfügbarkeit über mehrere Regionen
Modellportabilität und -export

Fallstudie: Wie eine europäische Bank ihren LLM-Anbieter ausgewählt hat

3-monatiger Prozess • 12 Anbieter bewertet • Entscheidungsbegründung dokumentiert

Bewertete Anbieter

Monate von Anfang bis Ende

PoC-Finalisten

Ausgewählter Anbieter

Monat 1

Sondierung und Anforderungen

Anwendungsfall definiert: interne Dokumentensuche und Vertragsanalyse (52.000 Dokumente)
Harte Anforderungen festgelegt: EU-Datenresidenz, GDPR-DPA, SOC 2 Type II, P95-Latenz < 800 ms
12 Kandidatenanbieter aus Marktforschung und bestehenden Cloud-Beziehungen identifiziert
MoSCoW-Filter angewendet — 5 Anbieter sofort ausgeschieden (keine EU-Residenz oder keine DPA)

Monat 2

PoC und technische Bewertung

4-wöchigen Parallel-PoC mit 3 Finalisten an einer repräsentativen Teilmenge von 500 Dokumenten durchgeführt
Gemessen: Extraktionsgenauigkeit bei IBAN-/Rechtsklauseln, P95-Latenz bei 50 Anfragen/s, Halluzinationsrate
Sicherheitsprüfung: SOC-2-Type-II-Berichte, DPA-Konditionen, Listen der Unterauftragsverarbeiter geprüft
TCO-Modellierung: prognostizierte Kosten über 3 Jahre einschließlich API, Fine-Tuning und Support-Stufen

Monat 3

Verhandlung und Auswahl

2 Anbieter in die engere Wahl genommen, weniger als 8 gewichtete Bewertungspunkte auseinander
2-wöchigen Stresstest mit Produktionsvolumen (Spitze 200 Anfragen/s) bei beiden Finalisten durchgeführt
Vertragliche Ausstiegsklausel verhandelt: 90 Tage Frist, vollständige Datenlöschung, Export der Modellgewichte
Endgültige Entscheidung: Der EU-native Anbieter gewann bei der Gewichtung der Datenresidenz (30 % der Bewertung) und den Ausstiegskonditionen

Begründung der endgültigen Entscheidung

Nach der Auswahl: Anbietermanagement und SLA-Überwachung

SLA-Überwachungs-Dashboard: zentrale Metriken

Metrik	SLA-Ziel	Messung	Eskalationsauslöser
API-Verfügbarkeit	≥ 99,9 % monatlich	Synthetisches Monitoring alle 60 s aus der EU-Region	P1-Vorfall, wenn die Ausfallzeit > 15 Minuten beträgt
P95-Latenz	< 800 ms bei Standardanfragen	95. Perzentil der Antwortzeiten über ein gleitendes 24-h-Fenster	Alarm, wenn das P95 länger als 5 Minuten 1.200 ms überschreitet
Fehlerrate	< 0,5 % 5xx-Fehler pro Stunde	Fehlerrate über alle API-Endpunkte, ohne Client-Fehler	Eskalation an den Anbieter, wenn > 1 % über zwei aufeinanderfolgende Stunden
Spielraum beim Ratenlimit	≥ 30 % freie Kapazität gegenüber den vertraglichen Limits	Tägliche Spitzennutzung gegenüber der vertraglichen Obergrenze des Ratenlimits	Limiterhöhung anfordern, wenn der Spielraum an 5 aufeinanderfolgenden Tagen < 20 % beträgt
Kosten pro 1.000 API-Aufrufe	Innerhalb von 10 % der modellierten Basis	Gleitender 7-Tage-Durchschnitt gegenüber dem ursprünglichen TCO-Modell	Überprüfen und neu verhandeln, wenn dauerhaft > 20 % über der Basis
Vierteljährliches Geschäftsreview	Alle 90 Tage abgehalten	Aktualisierung der Anbieter-Roadmap, Vorfallreview, Preisreview, SLA-Compliance-Bericht	Formelles Leistungsreview auslösen, wenn ein kritisches SLA verfehlt wird

Rhythmus des Anbietermanagements

TäglichAutomatisierte SLA-Überwachungsalarme — Verfügbarkeit, Latenz, Fehlerrate

WöchentlichInterne Überprüfung des Kosten-pro-Anfrage-Trends und des Spielraums beim Ratenlimit

MonatlichÜberprüfung der Anbieter-Statusseite, Post-mortem für jedes P1-Ereignis

VierteljährlichQBR mit dem Anbieter: Roadmap-Update, Preisreview, SLA-Compliance-Bericht

JährlichVollständige Neubewertung: Bewertungsmatrix erneut ausführen, Marktalternativen bewerten, Vertrag neu verhandeln

Checkliste für die Vertragsverlängerung

Beginnen Sie 3 Monate vor der Vertragsverlängerung. Dies ist Ihr Verhandlungsfenster.

Gewichtete Bewertungsmatrix mit den Marktdaten des laufenden Jahres erneut ausführen
Aktuellen SOC-2-Type-II-Bericht anfordern
2 bis 3 alternative Anbieter benchmarken, um eine Verhandlungsposition aufzubauen
Einstellungsmitteilungen des Anbieters prüfen — sind Modelle gefährdet, von denen Sie abhängen?
Vollständige TCO der letzten 12 Monate gegenüber dem ursprünglichen Modell berechnen
DPA auf etwaige Konditionsänderungen der letzten 12 Monate prüfen
Verhandeln: Mengenzusagen für bessere Preise, besseres SLA, längere Ankündigungsfristen
Ausstiegsklausel aktualisieren: sicherstellen, dass Lösch-SLA und Rechte zur Modellportabilität aktuell sind

Matrix zur Auswahl von KI-Anbietern und -Modellen

Warum die Auswahl von KI-Anbietern scheitert — das Muster des 2-Mio.-Dollar-Fehlers

Abhängigkeitsrisiko

Hype vs. Realität

Die verborgenen 60 %

Die drei Fehlermuster nach Häufigkeit

Die 8 Bewertungsdimensionen

Technische Leistung

Sicherheit und Compliance

Gesamtbetriebskosten

Support und SLAs

Integration und Ökosystem

Roadmap und Stabilität des Anbieters

Compliance und regulatorische Passung

Ausstiegsstrategie und Portabilität

Ablaufdiagramm des Bewertungsprozesses

Dimension 1 im Detail: Technische Leistung

Benchmark-Methodik

Aufbau des Bewertungssatzes

Genauigkeitsmetriken nach Aufgabentyp

Latenz- und Durchsatzmetriken

Protokoll für Genauigkeitstests

Dimension 2 im Detail: Sicherheit und Compliance

SOC 2 Type II

ISO 27001

GDPR und Auftragsverarbeitung

Ausrichtung am EU AI Act

Optionen zur Datenresidenz nach großen Anbietern

Dimension 3 im Detail: Gesamtbetriebskosten

API- und Inferenzkosten

Training und Anpassung

Betrieblicher Aufwand

Compliance und Sicherheit

Migrations- und Ausstiegskosten

Entscheidungsrahmen: selbst entwickeln, kaufen oder partnern

Kaufen (SaaS-API)

Selbst entwickeln (Open Source selbst hosten)

Partnern (Cloud-KI-Plattform)

Die Vorlage für die Bewertungsmatrix

Die Ergebnisse lesen

RFP-Vorlage: 25 Fragen, die Sie jedem Anbieter senden sollten

Technische Leistung

Sicherheit und Compliance

Preisgestaltung und kommerzielle Konditionen

Betrieb und Integration

Strategie und Ausstieg

Wie Sie diese Fragen verwenden

Warnsignale: 12 Anzeichen, dass ein Anbieter Sie enttäuschen wird

Auswahlprozess: von 20 Anbietern auf 3 Finalisten in 2 Wochen

Sondierung

MoSCoW-Filter

Schreibtischrecherche

Demo und technisches Gespräch

Bewertung und Shortlist

Kriterien des MoSCoW-Filters

Must Have (jedes Versagen = Ausschluss)

Should Have (höher bewerten, nicht ausschließen)

Fallstudie: Wie eine europäische Bank ihren LLM-Anbieter ausgewählt hat

Sondierung und Anforderungen

PoC und technische Bewertung

Verhandlung und Auswahl

Begründung der endgültigen Entscheidung

Nach der Auswahl: Anbietermanagement und SLA-Überwachung

SLA-Überwachungs-Dashboard: zentrale Metriken

Rhythmus des Anbietermanagements

Checkliste für die Vertragsverlängerung

Strategie zur Mehr-Anbieter-Abstraktion

Open-Source-Routing-Optionen

Was Ihnen die Abstraktion bringt

Brauchen Sie Hilfe bei der Durchführung Ihrer KI-Anbieterbewertung?

Verwandte Ressourcen

Leitfaden zur Kostenoptimierung von LLM

Playbook für KI-Sicherheit und Red-Teaming

Leitfaden zur Compliance mit dem EU AI Act

Matrix zur Auswahl von KI-Anbietern und -Modellen

Warum die Auswahl von KI-Anbietern scheitert — das Muster des 2-Mio.-Dollar-Fehlers

Abhängigkeitsrisiko

Hype vs. Realität

Die verborgenen 60 %

Die drei Fehlermuster nach Häufigkeit