Un cadre de décision complet pour évaluer les fournisseurs d'IA selon 8 dimensions. Du schéma de l'erreur à 2 M$ aux 25 questions de RFP, 12 signaux d'alerte et une véritable étude de cas — tout ce qu'il faut pour choisir le bon fournisseur d'IA et éviter une dépendance coûteuse.
Une fintech européenne a choisi son fournisseur de LLM sur la base d'une démonstration de 45 minutes et d'un billet de blog vantant un benchmark. Dix-huit mois plus tard, elle a dépensé 2,1 M$ pour en migrer. Le modèle avait été déprécié, son équipe conformité a rejeté l'accord de traitement des données du fournisseur, et le coût par token avait triplé par rapport au budget initial. Rien de tout cela n'était imprévisible. Tout aurait été détecté par une évaluation structurée.
Cette histoire n'a rien d'exceptionnel. Au fil d'échanges avec plus de 80 responsables techniques à travers l'Europe, les mêmes modes de défaillance reviennent sans cesse. La cause profonde n'est presque jamais la technologie. C'est le processus — ou son absence.
Les formats de prompt propres au fournisseur, les schémas d'appel de fonctions et les conventions de SDK s'accumulent en une dette de migration invisible. Coût d'ingénierie moyen pour changer de fournisseur de LLM en cours de projet : 50 000 à 200 000 $ et 3 à 6 mois. La plupart des équipes ne découvrent la dépendance qu'à la réception d'un avis de dépréciation ou d'une hausse de tarif.
Les benchmarks publics (MMLU, GPQA, HumanEval) mesurent une capacité académique générale. Votre charge de production n'est pas générale. Un modèle classé n° 1 sur MMLU peut se classer n° 4 sur votre tâche spécifique d'extraction de contrats ou de support client. Les décisions fondées sur des benchmarks, sans pilote propre au domaine, déçoivent régulièrement.
La tarification d'API par token ne représente que 40 à 60 % de la dépense réelle d'infrastructure d'IA. Les frais de sortie (egress), le calcul de fine-tuning, les audits de conformité, les montées en gamme de support et l'ingénierie de migration constituent la majorité invisible. Les équipes qui ne budgétisent que les tokens constatent régulièrement des dépassements de coûts de 2 à 3x la deuxième année.
Toute sélection de fournisseur d'IA devrait être évaluée selon ces huit dimensions. Les pondérations par défaut ci-dessous conviennent à une grande entreprise déployant une infrastructure de LLM dans un contexte européen réglementé — ajustez-les selon vos priorités spécifiques. Un RSSI du secteur de la santé pondérera la sécurité à 35 %. Une startup en course vers le marché pondérera peut-être la performance technique à 40 %.
La somme des pondérations doit faire 100. Les sections 3, 4 et 5 approfondissent les trois dimensions les plus pondérées.
Qualité du modèle sur vos tâches spécifiques, latence, débit et précision en conditions réalistes.
Certifications (SOC 2, ISO 27001, HIPAA), résidence des données, posture GDPR, alignement sur l'EU AI Act.
Tarification d'API, coûts d'entraînement, frais cachés, egress, niveaux de support et coûts d'ingénierie de migration.
Garanties de disponibilité, délais de réponse du support, CSM dédié, disponibilité d'un palier entreprise.
Qualité du SDK, compatibilité des frameworks (LangChain, LlamaIndex), intégration CI/CD, documentation.
Trésorerie disponible, cadence de sortie des modèles, politique de dépréciation, alignement sur votre feuille de route produit.
Exigences sectorielles — HIPAA pour la santé, PCI-DSS pour la fintech, catégorisation de risque de l'EU AI Act.
Mécanismes d'export des données, portabilité des modèles, parcours de migration, clauses de sortie contractuelles.
flowchart TD
A([Start: Vendor Evaluation]) --> B[Discovery & Requirements]
B --> B1[Define use case & constraints]
B --> B2[Set must-have criteria]
B --> B3[Identify 15-20 candidate vendors]
B1 & B2 & B3 --> C[Initial Shortlist]
C --> C1[Apply MoSCoW filter]
C1 --> C2{Passes must-haves?}
C2 -- No --> X1[Eliminate]
C2 -- Yes --> D[PoC / Pilot Phase]
D --> D1[Technical benchmark on your data]
D --> D2[Security review & DPA check]
D --> D3[Pricing & TCO modelling]
D1 & D2 & D3 --> E[Weighted Scoring Matrix]
E --> E1[Score top 3 vendors]
E1 --> F[Commercial Negotiation]
F --> F1[SLA terms]
F --> F2[Data processing agreement]
F --> F3[Exit clause negotiation]
F1 & F2 & F3 --> G([Vendor Selected])
style A fill:#1a1a2e,stroke:#7c3aed,color:#e2e8f0
style B fill:#1e293b,stroke:#475569,color:#e2e8f0
style B1 fill:#1e293b,stroke:#475569,color:#e2e8f0
style B2 fill:#1e293b,stroke:#475569,color:#e2e8f0
style B3 fill:#1e293b,stroke:#475569,color:#e2e8f0
style C fill:#1e293b,stroke:#6366f1,color:#e2e8f0
style C1 fill:#1e293b,stroke:#475569,color:#e2e8f0
style C2 fill:#1e1b4b,stroke:#6366f1,color:#e2e8f0
style D fill:#1e293b,stroke:#3b82f6,color:#e2e8f0
style D1 fill:#1e293b,stroke:#475569,color:#e2e8f0
style D2 fill:#1e293b,stroke:#475569,color:#e2e8f0
style D3 fill:#1e293b,stroke:#475569,color:#e2e8f0
style E fill:#1e293b,stroke:#8b5cf6,color:#e2e8f0
style E1 fill:#1e293b,stroke:#475569,color:#e2e8f0
style F fill:#1e293b,stroke:#f59e0b,color:#e2e8f0
style F1 fill:#1e293b,stroke:#475569,color:#e2e8f0
style F2 fill:#1e293b,stroke:#475569,color:#e2e8f0
style F3 fill:#1e293b,stroke:#475569,color:#e2e8f0
style X1 fill:#1f0d0d,stroke:#ef4444,color:#e2e8f0
style G fill:#0d1f12,stroke:#22c55e,color:#e2e8f0Pondération par défaut : 25 %
L'évaluation de la performance technique comporte trois volets : la méthodologie de benchmark, la mesure de la latence et du débit, et les tests de précision sur votre domaine spécifique. Les trois doivent être réalisés avant tout engagement.
Les benchmarks publics sont un point de départ, pas un critère de décision. MMLU teste des connaissances académiques larges. HumanEval teste la génération de code Python. Aucun ne teste votre tâche spécifique. Constituez un jeu d'évaluation propre au domaine, à partir de données de production réelles, avant toute comparaison de fournisseurs.
N'évaluez jamais la latence avec une seule requête. Mesurez sous une charge concurrente réaliste, avec votre profil de trafic de production attendu. La latence des démonstrations de fournisseurs correspond toujours au meilleur cas, requête unique.
| Métrique | Ce qu'elle mesure | Seuil acceptable | Comment la mesurer |
|---|---|---|---|
| Latence P50 | Temps de réponse médian | < 400 ms pour les tâches simples | Test de charge à 1x le volume de prod |
| Latence P95 | 95e centile — le plancher d'expérience utilisateur | < 1 200 ms pour les tâches complexes | Test de charge à 2x le volume de prod |
| Latence P99 | Pire cas — le pire 1 % des utilisateurs | < 3 000 ms (plafond du SLA) | Test de charge à 3x le volume de prod |
| Time to First Token | Vitesse perçue pour les réponses en streaming | < 300 ms au P95 | Mesurer le TTFT séparément de la latence totale |
| Tokens/seconde | Débit de génération par requête | > 40 tokens/s pour une UX en temps réel | Nombre de tokens / temps de génération total |
| Capacité de limite de débit | Maximum de requêtes / tokens par minute en concurrence | ≥ 2x le volume de production de pointe | Consulter la documentation + tester le comportement en rafale |
Pondération par défaut : 20 %
La sécurité et la conformité sont la cause la plus fréquente d'échec d'une sélection de fournisseur d'IA après engagement. Ces vérifications doivent intervenir avant le PoC, pas après. Un fournisseur incapable de franchir la barre de conformité est éliminé, quelle que soit sa performance technique.
| Fournisseur | Région UE | Les données ne quittent jamais l'UE | Option auto-hébergée | DPA disponible |
|---|---|---|---|---|
| OpenAI (direct) | Non disponible | Non — serveurs aux États-Unis | Non | Oui (Enterprise) |
| OpenAI via Azure | Oui (Suède, France, Pays-Bas) | Oui (PTU) | Non | Oui (Azure DPA) |
| Anthropic (direct) | Non disponible | Non — serveurs aux États-Unis | Non | Oui (Enterprise) |
| Anthropic via Bedrock | Oui (Francfort, Irlande) | Oui | Non | Oui (AWS DPA) |
| Mistral (direct) | Oui (France) | Oui — natif UE | Poids ouverts | Oui (standard) |
| Google Vertex AI | Oui (Belgique, Pays-Bas) | Oui (point de terminaison régional) | Non | Oui (GCP DPA) |
Pondération par défaut : 15 %
La modélisation du TCO pour les fournisseurs d'IA comporte 5 catégories de coûts. La plupart des équipes ne budgétisent que la catégorie 1. Le tableau complet est généralement 2 à 3x supérieur aux estimations initiales. Construisez un modèle sur 3 ans avant tout engagement.
C'est le seul coût que la plupart des équipes incluent dans leur budget.
Ajoute généralement 20 à 40 % aux coûts d'API pour les équipes utilisant le fine-tuning.
Souvent 30 à 60 % des coûts d'API pour des déploiements de production matures.
Coûts ponctuels et récurrents annuels totalisant 10 000 à 50 000 $/an pour les secteurs réglementés.
La catégorie de coûts la plus sous-estimée. Comptez 3 à 6 mois de migration en cas de changement en cours de projet.
Un exemple concret comparant quatre fournisseurs pour un déploiement de LLM en grande entreprise européenne. Notez chaque fournisseur de 1 à 10 par dimension, multipliez par la pondération de la dimension, puis additionnez pour obtenir le total pondéré.
| Dimension | Pondération | Fournisseur AHyperscaler américain | Fournisseur BPlateforme cloud | Fournisseur CNatif UE | Fournisseur DHébergeur open source |
|---|---|---|---|---|---|
| Performance technique | 25% | 9/10(22.5) | 8/10(20.0) | 7/10(17.5) | 6/10(15.0) |
| Sécurité et conformité | 20% | 5/10(10.0) | 8/10(16.0) | 10/10(20.0) | 7/10(14.0) |
| Coût total de possession | 15% | 6/10(9.0) | 7/10(10.5) | 8/10(12.0) | 9/10(13.5) |
| Support et SLA | 10% | 8/10(8.0) | 9/10(9.0) | 6/10(6.0) | 5/10(5.0) |
| Intégration et écosystème | 10% | 9/10(9.0) | 7/10(7.0) | 6/10(6.0) | 5/10(5.0) |
| Feuille de route et stabilité du fournisseur | 10% | 8/10(8.0) | 7/10(7.0) | 9/10(9.0) | 6/10(6.0) |
| Conformité et adéquation réglementaire | 5% | 4/10(2.0) | 7/10(3.5) | 10/10(5.0) | 8/10(4.0) |
| Stratégie de sortie et portabilité | 5% | 4/10(2.0) | 6/10(3.0) | 9/10(4.5) | 8/10(4.0) |
| Total pondéré | 100% | 70.5 | 76.0 | 80.0Gagnant | 66.5 |
Le fournisseur C (natif UE) l'emporte malgré des notes plus faibles en performance technique et en intégration. La forte pondération de la sécurité et conformité (20 %) et de l'adéquation réglementaire (5 %) reflète le contexte d'entreprise. Une startup sans exigences de conformité verrait un gagnant différent.
Règle de départage : Si deux fournisseurs sont à moins de 5 points l'un de l'autre, menez un pilote parallèle de 2 semaines sur un trafic à l'échelle de la production. La matrice resserre le champ — les données réelles sur votre charge tranchent.
Ajustement des pondérations : Avant la notation, demandez à vos parties prenantes clés (CTO, RSSI, DAF, DPO) d'attribuer les pondérations de façon indépendante, puis faites la moyenne ou négociez. Des pondérations différentes produisent des gagnants différents — la conversation sur les pondérations est aussi importante que la notation.
Envoyez ces questions à chaque fournisseur envisagé avant de lancer un pilote. Les fournisseurs qui refusent de répondre ou dont les réponses sont vagues révèlent des problèmes. Exigez des réponses écrites — les réponses verbales d'un ingénieur avant-vente n'engagent pas contractuellement.
Ce sont des signaux observables fortement corrélés à des défaillances en production, des problèmes de conformité ou une détérioration de la relation. Les signaux critiques sont des arrêts nets — n'allez pas plus loin. Les signaux élevés exigent une investigation approfondie. Les signaux moyens sont des avertissements à gérer par contrat.
| N° | Signal d'alerte | Gravité | Ce qu'il révèle |
|---|---|---|---|
| 1 | Aucune page de statut publique ni historique de disponibilité | Critique | Le fournisseur a quelque chose à cacher sur sa fiabilité. Tout fournisseur de production sérieux publie l'historique de ses incidents. |
| 2 | Le retrait de l'entraînement exige une revue juridique, pas un simple commutateur d'interface | Critique | Vos prompts propriétaires et données métier sont probablement utilisés pour l'entraînement du modèle. Non négociable pour une entreprise. |
| 3 | Aucun rapport SOC 2 Type II disponible (Type I uniquement) | Critique | Le Type I est un instantané ponctuel, sans preuve de contrôles dans la durée. Le Type II couvre une période d'exploitation de 6 à 12 mois. |
| 4 | La documentation GDPR/DPA exige une escalade commerciale | Critique | Un DPA devrait être en libre-service ou standard. Les exigences d'escalade révèlent soit une immaturité juridique, soit une friction délibérée. |
| 5 | La tarification exige un appel commercial pour les informations du palier de base | Élevé | Une tarification cachée signifie généralement qu'elle varie selon le budget perçu, créant de l'imprévisibilité dans vos prévisions de coûts. |
| 6 | Préavis de dépréciation de modèle inférieur à 6 mois | Élevé | Les systèmes de production ne peuvent migrer en toute sécurité en moins de 6 mois. Les fenêtres de dépréciation courtes anéantissent les plans d'ingénierie. |
| 7 | Aucune option de déploiement auto-hébergé ou VPC pour le palier entreprise | Élevé | Pour les secteurs réglementés ou les données très sensibles, la colocation est souvent inacceptable. Pas d'auto-hébergement = pas d'accord. |
| 8 | Le SDK est un simple wrapper REST sans logique de réessai/backoff | Élevé | Indicateur de maturité d'ingénierie. Les SDK de qualité production gèrent les réessais, le streaming, le backoff sur limite de débit et la classification des erreurs. |
| 9 | Limites de débit non documentées ou modifiées sans préavis | Moyen | Des limites de débit non documentées ou volatiles rendent la planification de capacité impossible et provoquent des défaillances de production inattendues. |
| 10 | Aucun engagement écrit sur la résidence des données | Moyen | Les assurances verbales ne sont pas opposables. Les exigences de résidence des données doivent figurer dans le DPA ou le MSA, pas dans une présentation commerciale. |
| 11 | Entreprise fondée il y a moins de 18 mois sans clients entreprise référençables | Moyen | Les fournisseurs en phase initiale peuvent pivoter, manquer de financement ou être rachetés. Pour une infrastructure d'IA de production, la longévité compte. |
| 12 | Aucune clause de sortie ni garantie de suppression des données dans le contrat standard | Moyen | Qu'advient-il de vos données et de vos modèles affinés à votre départ ? Si le contrat est muet, attendez-vous au pire. |
Arrêt net. Éliminez le fournisseur immédiatement, sauf si vous pouvez obtenir une remédiation contractuelle.
Exigent une investigation détaillée et un plan d'atténuation écrit avant de poursuivre.
Signal d'avertissement. À gérer par des protections contractuelles ou une acceptation documentée du risque.
La plupart des évaluations de fournisseurs s'enlisent parce que les équipes tentent d'évaluer trop d'options en parallèle. Ce processus de 2 semaines utilise une élimination progressive pour aboutir efficacement à 3 finalistes qualifiés, en réservant l'effort de PoC aux fournisseurs qui le méritent réellement.
Ratisser large : 15 à 20 fournisseurs
Appliquer les critères incontournables stricts
Approfondir les 6 à 8 fournisseurs restants
Appel de 30 min avec chaque fournisseur, poser les 25 questions de RFP
Appliquer la matrice de notation pondérée aux 3 à 4 meilleurs fournisseurs
Appliquez-les comme des barrières binaires réussite/échec. Tout fournisseur échouant à un Must Have est éliminé immédiatement — sans exception.
Processus de 3 mois • 12 fournisseurs évalués • Justification de la décision documentée
Une banque de détail paneuropéenne présente dans 7 pays avait besoin d'un fournisseur de LLM pour la recherche de documents internes et l'analyse de contrats. Avec 52 000 documents, un contenu riche en PII et des exigences réglementaires dans plusieurs juridictions, les enjeux étaient élevés. Voici comment elle a mené l'évaluation.
Le fournisseur retenu était un prestataire dont le siège est en Europe, offrant une résidence des données native en UE. Bien que classé troisième sur les benchmarks bruts de performance du modèle, il s'est classé premier une fois appliquée la pondération de 30 % attribuée à la sécurité et conformité. Les deux fournisseurs techniquement supérieurs avaient tous deux leur siège aux États-Unis, sans garantie de résidence des données limitée à l'UE au moment de l'évaluation.
La clause de sortie contractuelle négociée a donné à la banque le droit d'exporter tous les adaptateurs affinés et de changer de fournisseur avec un préavis de 90 jours. Cette seule clause a réduit la prime de risque de migration dans le modèle de risque de 400 000 € — le coût d'une future ingénierie de migration supposée.
Résultat à 12 mois : La banque a traité 890 000 requêtes documentaires la première année, avec un TCO inférieur de 30 % aux estimations initiales. Le fournisseur a étendu sa couverture UE, ce qui a encore renforcé la relation. Le processus d'évaluation structuré a été adopté comme standard pour toutes les futures sélections de fournisseurs d'IA.
Choisir un fournisseur, c'est le début, pas la fin. Les relations avec les fournisseurs se dégradent sans gestion active. Les équipes qui obtiennent les meilleurs résultats traitent la gestion des fournisseurs comme une discipline continue, avec une cadence régulière, un suivi documenté des SLA et des chemins d'escalade clairs.
| Métrique | Objectif de SLA | Mesure | Déclencheur d'escalade |
|---|---|---|---|
| Disponibilité de l'API | ≥ 99,9 % par mois | Supervision synthétique toutes les 60 s depuis la région UE | Incident P1 si l'interruption dépasse 15 minutes |
| Latence P95 | < 800 ms pour les requêtes standard | 95e centile des temps de réponse sur une fenêtre glissante de 24 h | Alerte si le P95 dépasse 1 200 ms pendant plus de 5 minutes |
| Taux d'erreur | < 0,5 % d'erreurs 5xx par heure | Taux d'erreur sur tous les points de terminaison d'API, hors erreurs client | Escalade vers le fournisseur si > 1 % pendant deux heures consécutives |
| Marge de limite de débit | ≥ 30 % de capacité disponible par rapport aux limites contractuelles | Pic d'usage quotidien par rapport au plafond contractuel de limite de débit | Demander une hausse de limite quand la marge est < 20 % pendant 5 jours consécutifs |
| Coût pour 1 000 appels d'API | À moins de 10 % de la base modélisée | Moyenne glissante sur 7 jours par rapport au modèle de TCO initial | Réexaminer et renégocier si durablement > 20 % au-dessus de la base |
| Revue d'activité trimestrielle | Tenue tous les 90 jours | Mise à jour de la feuille de route fournisseur, revue des incidents, revue tarifaire, rapport de conformité aux SLA | Déclencher une revue de performance formelle si un SLA critique n'est pas respecté |
Commencez 3 mois avant le renouvellement du contrat. C'est votre fenêtre de levier.
Le moyen le plus efficace de réduire la dépendance à un fournisseur est d'abstraire vos appels de LLM derrière une couche de routage dès le premier jour. C'est 1 à 3 jours d'investissement d'ingénierie qui éliminent des mois de risque de migration.
J'aide les CTO et responsables techniques à mener des évaluations de fournisseurs structurées — de la définition des exigences à la conception du PoC, la notation et la négociation du contrat. Vous obtenez un cadre objectif et quelqu'un qui a vu les mêmes erreurs commises 50 fois.
Réduisez les coûts d'inférence de LLM de 60 à 90 % grâce au routage de modèles, à la mise en cache et au fine-tuning
Protégez vos systèmes d'IA contre l'injection de prompt et les attaques de modèles
Naviguez dans les exigences réglementaires pour les systèmes d'IA en Europe