Een compleet beslissingskader om AI-leveranciers te beoordelen over 8 dimensies. Van het patroon van de fout van 2 miljoen dollar via 25 RFP-vragen, 12 waarschuwingssignalen tot een echte casestudy — alles wat u nodig hebt om de juiste AI-leverancier te kiezen en kostbare lock-in te vermijden.
Een Europese fintech koos zijn LLM-leverancier op basis van een demo van 45 minuten en een gunstige blogpost over een benchmark. Achttien maanden later gaf het bedrijf 2,1 miljoen $ uit om ervan weg te migreren. Het model was uitgefaseerd, het complianceteam wees de verwerkersovereenkomst van de leverancier af, en de kosten per token waren verdrievoudigd ten opzichte van het oorspronkelijke budget. Niets hiervan was onvoorzienbaar. Alles zou door een gestructureerde evaluatie zijn opgevangen.
Dit verhaal is niet ongewoon. In gesprekken met meer dan 80 engineeringleiders in heel Europa duiken steeds dezelfde faalpatronen op. De grondoorzaak is bijna nooit de technologie. Het is het proces — of het ontbreken daarvan.
Leverancierspecifieke promptformaten, function-callingschema's en SDK-patronen stapelen zich op tot onzichtbare migratieschuld. Gemiddelde engineeringkosten om midden in een project van LLM-leverancier te wisselen: 50.000 tot 200.000 $ en 3 tot 6 maanden. De meeste teams ontdekken de afhankelijkheid pas wanneer ze een uitfaseringsmelding of een prijsverhoging ontvangen.
Openbare benchmarks (MMLU, GPQA, HumanEval) meten algemene academische capaciteit. Uw productiebelasting is niet algemeen. Een model dat nr. 1 staat op MMLU kan op uw specifieke taak voor contractextractie of klantenondersteuning op nr. 4 staan. Beslissingen op basis van benchmarks zonder domeinspecifieke pilot stellen geregeld teleur.
API-prijsstelling per token is slechts 40 tot 60% van de werkelijke uitgaven aan AI-infrastructuur. Egresskosten, rekenkracht voor fine-tuning, compliance-audits, upgrades van ondersteuningsniveaus en migratie-engineering vormen de onzichtbare meerderheid. Teams die alleen voor tokens budgetteren, zien in het tweede jaar geregeld kostenoverschrijdingen van 2 tot 3 keer.
Elke selectie van een AI-leverancier moet worden beoordeeld over deze acht dimensies. De standaardgewichten hieronder passen bij een grote onderneming die LLM-infrastructuur uitrolt in een gereguleerde Europese context — pas de gewichten aan op uw specifieke prioriteiten. Een CISO in de zorg weegt beveiliging op 35%. Een start-up in een race naar de markt weegt technische prestaties misschien op 40%.
De gewichten moeten optellen tot 100. Secties 3, 4 en 5 gaan dieper in op de drie zwaarst gewogen dimensies.
Modelkwaliteit op uw specifieke taken, latentie, doorvoer en nauwkeurigheid onder realistische omstandigheden.
Certificeringen (SOC 2, ISO 27001, HIPAA), dataresidentie, GDPR-houding, afstemming op de EU AI Act.
API-prijsstelling, trainingskosten, verborgen kosten, egress, ondersteuningsniveaus en migratie-engineeringkosten.
Beschikbaarheidsgaranties, reactietijden van de ondersteuning, toegewijde CSM, beschikbaarheid van een enterprise-niveau.
SDK-kwaliteit, frameworkcompatibiliteit (LangChain, LlamaIndex), CI/CD-integratie, documentatie.
Financiële reserves, releasecadans van modellen, uitfaseringsbeleid, afstemming op uw productroadmap.
Sectorspecifieke eisen — HIPAA voor de zorg, PCI-DSS voor fintech, risicocategorisering volgens de EU AI Act.
Mechanismen voor data-export, modelportabiliteit, migratiepad, contractuele exitclausules.
flowchart TD
A([Start: Vendor Evaluation]) --> B[Discovery & Requirements]
B --> B1[Define use case & constraints]
B --> B2[Set must-have criteria]
B --> B3[Identify 15-20 candidate vendors]
B1 & B2 & B3 --> C[Initial Shortlist]
C --> C1[Apply MoSCoW filter]
C1 --> C2{Passes must-haves?}
C2 -- No --> X1[Eliminate]
C2 -- Yes --> D[PoC / Pilot Phase]
D --> D1[Technical benchmark on your data]
D --> D2[Security review & DPA check]
D --> D3[Pricing & TCO modelling]
D1 & D2 & D3 --> E[Weighted Scoring Matrix]
E --> E1[Score top 3 vendors]
E1 --> F[Commercial Negotiation]
F --> F1[SLA terms]
F --> F2[Data processing agreement]
F --> F3[Exit clause negotiation]
F1 & F2 & F3 --> G([Vendor Selected])
style A fill:#1a1a2e,stroke:#7c3aed,color:#e2e8f0
style B fill:#1e293b,stroke:#475569,color:#e2e8f0
style B1 fill:#1e293b,stroke:#475569,color:#e2e8f0
style B2 fill:#1e293b,stroke:#475569,color:#e2e8f0
style B3 fill:#1e293b,stroke:#475569,color:#e2e8f0
style C fill:#1e293b,stroke:#6366f1,color:#e2e8f0
style C1 fill:#1e293b,stroke:#475569,color:#e2e8f0
style C2 fill:#1e1b4b,stroke:#6366f1,color:#e2e8f0
style D fill:#1e293b,stroke:#3b82f6,color:#e2e8f0
style D1 fill:#1e293b,stroke:#475569,color:#e2e8f0
style D2 fill:#1e293b,stroke:#475569,color:#e2e8f0
style D3 fill:#1e293b,stroke:#475569,color:#e2e8f0
style E fill:#1e293b,stroke:#8b5cf6,color:#e2e8f0
style E1 fill:#1e293b,stroke:#475569,color:#e2e8f0
style F fill:#1e293b,stroke:#f59e0b,color:#e2e8f0
style F1 fill:#1e293b,stroke:#475569,color:#e2e8f0
style F2 fill:#1e293b,stroke:#475569,color:#e2e8f0
style F3 fill:#1e293b,stroke:#475569,color:#e2e8f0
style X1 fill:#1f0d0d,stroke:#ef4444,color:#e2e8f0
style G fill:#0d1f12,stroke:#22c55e,color:#e2e8f0Standaardgewicht: 25%
De evaluatie van technische prestaties heeft drie onderdelen: benchmarkmethodiek, meting van latentie en doorvoer, en nauwkeurigheidstests op uw specifieke domein. Alle drie moeten worden uitgevoerd voordat u zich vastlegt.
Openbare benchmarks zijn een startpunt, geen beslissingscriterium. MMLU test brede academische kennis. HumanEval test het genereren van Python-code. Geen van beide test uw specifieke taak. Bouw een domeinspecifieke evaluatieset uit echte productiedata voordat u een leveranciervergelijking uitvoert.
Evalueer latentie nooit met één enkele aanvraag. Meet onder realistische gelijktijdige belasting met uw verwachte productieverkeerpatroon. De demolatentie van leveranciers is altijd het beste geval bij één aanvraag.
| Metriek | Wat het meet | Aanvaardbare drempel | Hoe te meten |
|---|---|---|---|
| P50-latentie | Mediane responstijd | < 400 ms voor eenvoudige taken | Belastingstest bij 1x productievolume |
| P95-latentie | 95e percentiel — de ondergrens van de gebruikerservaring | < 1.200 ms voor complexe taken | Belastingstest bij 2x productievolume |
| P99-latentie | Slechtste geval — de slechtste 1% van de gebruikers | < 3.000 ms (SLA-plafond) | Belastingstest bij 3x productievolume |
| Time to First Token | Waargenomen snelheid bij streamingresponsen | < 300 ms bij P95 | Meet TTFT los van de totale latentie |
| Tokens/seconde | Generatiedoorvoer per aanvraag | > 40 tokens/s voor een realtime UX | Aantal tokens / totale generatietijd |
| Capaciteit van de ratelimiet | Maximaal gelijktijdige aanvragen / tokens per minuut | ≥ 2x piekproductievolume | Documentatie bekijken + burstgedrag testen |
Standaardgewicht: 20%
Beveiliging en compliance zijn de meest voorkomende reden waarom de selectie van een AI-leverancier na de toezegging mislukt. Deze controles moeten vóór de PoC plaatsvinden, niet erna. Een leverancier die de compliancelat niet haalt, wordt uitgesloten, ongeacht de technische prestaties.
| Leverancier | EU-regio | Gegevens verlaten de EU nooit | Self-hostingoptie | DPA beschikbaar |
|---|---|---|---|---|
| OpenAI (direct) | Niet beschikbaar | Nee — servers in de VS | Nee | Ja (Enterprise) |
| OpenAI via Azure | Ja (Zweden, Frankrijk, Nederland) | Ja (PTU) | Nee | Ja (Azure DPA) |
| Anthropic (direct) | Niet beschikbaar | Nee — servers in de VS | Nee | Ja (Enterprise) |
| Anthropic via Bedrock | Ja (Frankfurt, Ierland) | Ja | Nee | Ja (AWS DPA) |
| Mistral (direct) | Ja (Frankrijk) | Ja — EU-native | Open gewichten | Ja (standaard) |
| Google Vertex AI | Ja (België, Nederland) | Ja (regionaal eindpunt) | Nee | Ja (GCP DPA) |
Standaardgewicht: 15%
TCO-modellering voor AI-leveranciers kent 5 kostencategorieën. De meeste teams budgetteren alleen categorie 1. Het volledige beeld is doorgaans 2 tot 3 keer hoger dan de oorspronkelijke schattingen. Bouw een model over 3 jaar voordat u zich vastlegt.
Dit is de enige kostenpost die de meeste teams in hun budget opnemen.
Voegt doorgaans 20 tot 40% toe aan de API-kosten voor teams die fine-tuning gebruiken.
Vaak 30 tot 60% van de API-kosten voor volwassen productie-implementaties.
Eenmalige en jaarlijks terugkerende kosten van in totaal 10.000 tot 50.000 $/jaar voor gereguleerde sectoren.
De meest onderschatte kostencategorie. Reken op 3 tot 6 maanden migratie bij een wissel midden in een project.
Een uitgewerkt voorbeeld dat vier leveranciers vergelijkt voor een LLM-implementatie bij een Europese grote onderneming. Scoor elke leverancier 1 tot 10 per dimensie, vermenigvuldig met het dimensiegewicht en tel op voor het gewogen totaal.
| Dimensie | Gewicht | Leverancier AAmerikaanse hyperscaler | Leverancier BCloudplatform | Leverancier CEU-native | Leverancier DOpen-sourcehoster |
|---|---|---|---|---|---|
| Technische prestaties | 25% | 9/10(22.5) | 8/10(20.0) | 7/10(17.5) | 6/10(15.0) |
| Beveiliging en compliance | 20% | 5/10(10.0) | 8/10(16.0) | 10/10(20.0) | 7/10(14.0) |
| Totale eigendomskosten | 15% | 6/10(9.0) | 7/10(10.5) | 8/10(12.0) | 9/10(13.5) |
| Ondersteuning en SLA's | 10% | 8/10(8.0) | 9/10(9.0) | 6/10(6.0) | 5/10(5.0) |
| Integratie en ecosysteem | 10% | 9/10(9.0) | 7/10(7.0) | 6/10(6.0) | 5/10(5.0) |
| Roadmap en stabiliteit van de leverancier | 10% | 8/10(8.0) | 7/10(7.0) | 9/10(9.0) | 6/10(6.0) |
| Compliance en regelgevingsgeschiktheid | 5% | 4/10(2.0) | 7/10(3.5) | 10/10(5.0) | 8/10(4.0) |
| Exitstrategie en portabiliteit | 5% | 4/10(2.0) | 6/10(3.0) | 9/10(4.5) | 8/10(4.0) |
| Gewogen totaal | 100% | 70.5 | 76.0 | 80.0Winnaar | 66.5 |
Leverancier C (EU-native) wint ondanks lagere scores op technische prestaties en integratie. De zware weging van beveiliging en compliance (20%) en regelgevingsgeschiktheid (5%) weerspiegelt de enterprisecontext. Een start-up zonder compliance-eisen zou een andere winnaar zien.
Beslissingsregel bij gelijke stand: Als twee leveranciers minder dan 5 punten van elkaar verwijderd zijn, voer dan een parallelle pilot van 2 weken uit op verkeer op productieschaal. De matrix versmalt het veld — echte data over uw belasting hakt de knoop door.
Gewichtsaanpassing: Laat vóór het scoren uw belangrijkste stakeholders (CTO, CISO, CFO, DPO) de gewichten onafhankelijk toekennen en neem vervolgens het gemiddelde of onderhandel. Verschillende gewichten leveren verschillende winnaars op — het gesprek over de weging is even belangrijk als het scoren.
Stuur deze vragen vóór een pilot naar elke leverancier die u overweegt. Leveranciers die weigeren te antwoorden of vaag antwoorden, signaleren problemen. Eis schriftelijke antwoorden — mondelinge antwoorden van een sales engineer zijn contractueel niet bindend.
Dit zijn waarneembare signalen die sterk correleren met productiestoringen, complianceproblemen of verslechtering van de relatie. Kritieke signalen zijn harde stops — ga niet verder. Hoge signalen vereisen diepgaand onderzoek. Gemiddelde signalen zijn waarschuwingen om contractueel te beheren.
| Nr. | Waarschuwingssignaal | Ernst | Wat het signaleert |
|---|---|---|---|
| 1 | Geen openbare statuspagina of historische beschikbaarheidsgegevens | Kritiek | De leverancier heeft iets te verbergen over betrouwbaarheid. Elke serieuze productieleverancier publiceert een incidenthistorie. |
| 2 | Opt-out van training vereist een juridische toetsing, geen schakelaar in de UI | Kritiek | Uw eigen prompts en bedrijfsgegevens worden waarschijnlijk gebruikt voor modeltraining. Niet onderhandelbaar voor een onderneming. |
| 3 | Geen SOC 2 Type II-rapport beschikbaar (alleen Type I) | Kritiek | Type I is een momentopname zonder bewijs van blijvende beheersmaatregelen. Type II beslaat een operationele periode van 6 tot 12 maanden. |
| 4 | GDPR-/DPA-documentatie vereist een sales-escalatie | Kritiek | Een DPA zou self-service of standaard moeten zijn. Escalatie-eisen wijzen op juridische onvolwassenheid of bewuste wrijving. |
| 5 | Prijsstelling vereist een salesgesprek voor informatie over het basisniveau | Hoog | Verborgen prijzen betekenen meestal dat ze variëren op basis van het waargenomen budget, wat uw kostenprognose onvoorspelbaar maakt. |
| 6 | Opzegtermijn voor modeluitfasering korter dan 6 maanden | Hoog | Productiesystemen kunnen niet veilig in minder dan 6 maanden migreren. Korte uitfaseringsvensters maken engineeringplannen onmogelijk. |
| 7 | Geen self-hosting- of VPC-implementatieoptie voor het enterprise-niveau | Hoog | Voor gereguleerde sectoren of zeer gevoelige data is gedeelde tenancy vaak onaanvaardbaar. Geen self-hosting = geen deal. |
| 8 | De SDK is een dunne REST-wrapper zonder retry-/backofflogica | Hoog | Een indicator van engineeringvolwassenheid. Productiewaardige SDK's verzorgen retries, streaming, backoff bij ratelimieten en foutclassificatie. |
| 9 | Ratelimieten niet gedocumenteerd of gewijzigd zonder voorafgaande kennisgeving | Gemiddeld | Ongedocumenteerde of volatiele ratelimieten maken capaciteitsplanning onmogelijk en veroorzaken onverwachte productiestoringen. |
| 10 | Geen schriftelijke toezegging over dataresidentie | Gemiddeld | Mondelinge toezeggingen zijn niet afdwingbaar. Eisen voor dataresidentie moeten in de DPA of het MSA staan, niet in een salespresentatie. |
| 11 | Bedrijf minder dan 18 maanden geleden opgericht zonder referentieerbare enterprise-klanten | Gemiddeld | Leveranciers in een vroege fase kunnen pivoteren, zonder financiering komen te zitten of worden overgenomen. Voor een AI-productie-infrastructuur telt levensduur. |
| 12 | Geen exitclausule of garantie voor dataverwijdering in het standaardcontract | Gemiddeld | Wat gebeurt er met uw data en fijngestelde modellen wanneer u vertrekt? Als het contract zwijgt, ga dan uit van het ergste. |
Harde stop. Sluit de leverancier onmiddellijk uit, tenzij u contractueel herstel kunt verkrijgen.
Vereisen een gedetailleerd onderzoek en een schriftelijk mitigatieplan voordat u verdergaat.
Waarschuwingssignaal. Beheer via contractuele bescherming of een gedocumenteerde risicoacceptatie.
De meeste leveranciersevaluaties lopen vast omdat teams te veel opties tegelijk proberen te beoordelen. Dit proces van 2 weken gebruikt progressieve eliminatie om efficiënt tot 3 gekwalificeerde finalisten te komen, en bespaart de PoC-inspanning voor de leveranciers die het echt verdienen.
Werp een breed net uit: 15 tot 20 leveranciers
Pas harde must-have-criteria toe
Diepgaande analyse van de resterende 6 tot 8 leveranciers
Gesprek van 30 min met elke leverancier, stel de 25 RFP-vragen
Pas de gewogen scoringsmatrix toe op de top 3 tot 4 leveranciers
Pas deze toe als binaire slagen/zakken-poorten. Elke leverancier die een Must Have niet haalt, wordt onmiddellijk uitgesloten — zonder uitzonderingen.
Proces van 3 maanden • 12 leveranciers beoordeeld • Beslissingsmotivering gedocumenteerd
Een pan-Europese retailbank met activiteiten in 7 landen had een LLM-leverancier nodig voor interne documentzoekopdrachten en contractanalyse. Met 52.000 documenten, PII-rijke inhoud en regelgevingseisen over meerdere jurisdicties stond er veel op het spel. Zo voerde de bank de evaluatie uit.
De geselecteerde leverancier was een aanbieder met hoofdkantoor in Europa en native EU-dataresidentie. Hoewel hij op de pure modelprestatie-benchmarks derde stond, kwam hij op de eerste plaats zodra de aan beveiliging en compliance toegekende weging van 30% werd toegepast. De twee technisch superieure leveranciers hadden beide hun hoofdkantoor in de VS en boden ten tijde van de evaluatie geen tot de EU beperkte dataresidentiegarantie.
De onderhandelde contractuele exitclausule gaf de bank het recht om alle fijngestelde adapters te exporteren en met een opzegtermijn van 90 dagen van leverancier te wisselen. Deze ene clausule verlaagde de risicotoeslag voor migratie in het risicomodel met 400.000 € — de kosten van een verondersteld toekomstig migratie-engineering.
Resultaat na 12 maanden: De bank verwerkte in het eerste jaar 890.000 documentquery's tegen een TCO 30% onder de oorspronkelijke schattingen. De leverancier breidde zijn EU-dekking uit, wat de relatie verder versterkte. Het gestructureerde evaluatieproces werd aangenomen als standaard voor alle toekomstige selecties van AI-leveranciers.
Een leverancier selecteren is het begin, niet het einde. Leveranciersrelaties verslechteren zonder actief beheer. De teams met de beste resultaten behandelen leveranciersbeheer als een doorlopende discipline met een regelmatige cadans, gedocumenteerde SLA-opvolging en duidelijke escalatiepaden.
| Metriek | SLA-doel | Meting | Escalatietrigger |
|---|---|---|---|
| API-beschikbaarheid | ≥ 99,9% per maand | Synthetische monitoring elke 60 s vanuit de EU-regio | P1-incident als de uitvaltijd > 15 minuten bedraagt |
| P95-latentie | < 800 ms voor standaardaanvragen | 95e percentiel van de responstijden over een voortschrijdend venster van 24 uur | Alarm als P95 langer dan 5 minuten 1.200 ms overschrijdt |
| Foutpercentage | < 0,5% 5xx-fouten per uur | Foutpercentage over alle API-eindpunten, exclusief clientfouten | Escaleer naar de leverancier als > 1% gedurende twee opeenvolgende uren |
| Marge op de ratelimiet | ≥ 30% vrije capaciteit ten opzichte van de contractuele limieten | Dagelijks piekgebruik ten opzichte van het contractuele plafond van de ratelimiet | Vraag een limietverhoging aan wanneer de marge gedurende 5 opeenvolgende dagen < 20% is |
| Kosten per 1.000 API-aanroepen | Binnen 10% van de gemodelleerde basis | Voortschrijdend gemiddelde over 7 dagen ten opzichte van het oorspronkelijke TCO-model | Beoordeel en heronderhandel bij aanhoudend > 20% boven de basis |
| Driemaandelijkse business review | Om de 90 dagen gehouden | Update van de leveranciersroadmap, incidentbeoordeling, prijsbeoordeling, SLA-compliancerapport | Activeer een formele prestatiebeoordeling als een kritieke SLA niet wordt gehaald |
Begin 3 maanden vóór de contractverlenging. Dit is uw hefboomvenster.
De veruit meest effectieve manier om leverancier-lock-in te verminderen, is uw LLM-aanroepen vanaf dag één te abstraheren achter een routinglaag. Dit is 1 tot 3 dagen engineeringinvestering die maanden migratierisico elimineert.
Ik help CTO's en engineeringleiders bij het uitvoeren van gestructureerde leveranciersevaluaties — van de definitie van de eisen via het PoC-ontwerp, het scoren tot de contractonderhandeling. U krijgt een objectief kader en iemand die dezelfde fouten al 50 keer heeft gezien.
Verlaag de LLM-inferentiekosten met 60 tot 90% door model-routing, caching en fine-tuning
Bescherm uw AI-systemen tegen prompt-injection en modelaanvallen
Navigeer door de regelgevingseisen voor AI-systemen in Europa