Lifecycle stage — Build
Ceci n'est pas le Domain-Expert LLM Lab sur mesure. C'est son adaptation PME. Une petite ou moyenne entreprise avec un cas d'usage vertical spécifique — revue de contrat, enrichissement de catalogue produit, catégorisation de notes de frais — ne devrait pas payer pour huit semaines de recherche sur mesure quand le pipeline pour ce vertical est déjà construit à 80 %. La mission packagée utilise un base model curé, une couche de retrieval et un harnais d'évaluation que Hyperion a déjà assemblés pour un petit ensemble de verticaux supportés, et les applique à vos données propriétaires. Vous gardez les poids et le harnais d'éval ; Hyperion garde le template de pipeline. Le résultat est un modèle domain-expert qui tourne sur votre infrastructure ou un tenant sovereign-cloud, à prix forfaitaire par vertical, livré en quatre semaines au lieu de huit. Les verticaux supportés aujourd'hui sont étroits par conception — extraction de clauses juridiques, enrichissement de catalogue retail, et extraction de factures comptables — parce que les décisions de jugement qui rendent une offre packagée viable exigent que le même pipeline ait été validé à travers plusieurs clients avant de devenir un produit. En dehors de ces verticaux, le Lab sur mesure est le bon point d'entrée.
La mission sur mesure est tarifée pour les entreprises et vous n'en êtes pas une. Les programmes de fine-tuning de huit semaines avec ingénieurs ML embedded sont correctement tarifés pour les entreprises avec des budgets IA à sept chiffres et une vraie équipe ML pour absorber le transfert de connaissances. Pour une PME avec un seul cas d'usage vertical et une équipe technique de deux personnes, la mission sur mesure est surdimensionnée. Ce dont la PME a réellement besoin, c'est les 20 % du travail qui sont uniques à ses données, montés sur les 80 % qui sont communs aux entreprises du même vertical. Cette économie ne fonctionne que si les 80 % communs sont déjà construits.
Les API de frontière continuent de s'améliorer sur les tâches générales et d'empirer sur la vôtre. GPT-4 et Claude s'améliorent sur les benchmarks larges chaque trimestre, et votre tâche spécialisée — extraction de clauses contractuelles en droit commercial français, enrichissement de catalogue au niveau SKU pour la mode retail, catégorisation de notes de frais sensible à la TVA pour la comptabilité belge — ne bouge pas avec eux. Vous payez une prime pour de l'intelligence générale qui n'allait jamais gagner sur votre tâche étroite, et l'écart entre « sortie API générique » et « sortie que votre expert métier validerait » ne se comble pas. À un moment, la réponse honnête est que votre vertical exige un modèle spécialiste et que l'API généraliste était toujours une solution de secours.
Votre équipe ne peut pas construire un pipeline de fine-tuning de zéro et ce serait un mauvais usage de son temps si elle le pouvait. Fine-tuner un modèle correctement — curation des données, sélection du base model, construction du harnais d'éval, compromis de quantization, déploiement — est un workstream de plusieurs semaines pour un ingénieur ML expérimenté. Si vous avez cet ingénieur, il devrait construire votre produit. Sinon, les tutoriels vous donneront un modèle qui a l'air entraîné mais qui perd l'éval, et vous ne saurez pas pourquoi. L'offre packagée condense le workstream de plusieurs semaines en une mission forfaitaire de quatre semaines avec une recette pré-validée pour votre vertical spécifique.
Vous avez besoin que le modèle tourne quelque part qui n'est pas un fournisseur d'API de frontière. Vos clients — cabinets d'avocats, cabinets comptables, détaillants régionaux — ont des préoccupations de résidence des données, des obligations de confidentialité client, ou une régulation sectorielle qui fait de l'envoi de leurs données à un hyperscaler américain un problème commercial même quand c'est techniquement autorisé. Un modèle que vous possédez, déployé sur votre infrastructure ou un tenant souverain européen, est une réponse structurelle à ces préoccupations d'une manière qu'un contrat vendor API de frontière ne sera jamais. Pour une PME, cette posture est un vrai différenciateur commercial, pas une case à cocher conformité.
La mission est la phase ENGINEER de la Hyperion Lifecycle, compressée à quatre semaines par le pipeline pré-construit pour votre vertical supporté. Votre équipe fournit les données propriétaires et l'expert métier qui note la sortie. Le pipeline — base model, retrieval, template d'éval, stack d'inférence — est déjà assemblé. La première conversation confirme que votre vertical est dans l'ensemble supporté ; s'il ne l'est pas, le Lab sur mesure est la bonne mission et nous ne démarrons pas celle-ci.
Vos données atterrissent sur le pipeline. Nous auditons la couverture, le licensing et la qualité contre les exigences du vertical packagé — juridique, retail ou comptabilité. Le harnais d'éval est instancié contre la définition de tâche de votre vertical et une baseline est lancée sur l'API de frontière incumbent, pour que nous sachions à quoi ressemble la victoire avant que l'entraînement ne commence. Si la couverture des données est mince ou que la définition de tâche tombe en dehors du vertical supporté, nous nous arrêtons ici et remboursons le solde ; l'offre packagée ne fonctionne que quand le fit est réel.
Le base model pré-sélectionné pour votre vertical — une variante spécifique de Llama 3, Mistral ou Qwen choisie pour ce profil de tâche — est fine-tuné sur vos données curées en utilisant la recette du pipeline. Nous faisons tourner le harnais d'éval chaque jour de la semaine et itérons sur le data mix là où les chiffres l'exigent. À la fin de la semaine deux, soit le modèle bat la baseline API de frontière sur votre éval spécifique à la tâche, soit nous revenons à la configuration next-best et documentons le plafond honnêtement. L'offre packagée ne vaut la peine d'être payée que si le modèle gagne réellement.
L'inférence est déployée là où vous la ferez tourner réellement — un tenant sovereign-cloud, un petit GPU on-premise, ou un prestataire d'inférence dédié qui garde les données dans votre juridiction. L'enveloppe de latence et de coût est fixée pour les verticaux packagés, donc nous tunons contre une cible connue plutôt que d'explorer l'espace de design complet. L'expert métier de votre côté valide la sortie du modèle déployé sur un échantillon de vrais cas de production ; cette validation est le critère d'acceptation.
Votre équipe technique de deux personnes est formée à la recette d'entraînement, au harnais d'éval et au runbook de déploiement. Le modèle, les poids, le pipeline de données et l'éval sont à vous. Le template de pipeline — le scaffolding cross-clients qui a rendu le calendrier de quatre semaines possible — reste propriété intellectuelle Hyperion ; vous payez pour l'application spécialisée de celui-ci à vos données, pas pour le framework sous-jacent. Quand un meilleur base model sort, votre équipe peut relancer la recette sur le nouveau base en moins d'une semaine sans nouvelle mission.
Petites et moyennes entreprises dans les services juridiques, le retail ou la comptabilité — les trois verticaux que le pipeline packagé supporte aujourd'hui — avec une tâche spécifique (extraction de clauses contractuelles, enrichissement de catalogue, catégorisation de factures ou notes de frais) et un dataset propriétaire au moins assez grand pour fine-tuner dessus. Équipes où la solution API de frontière existante a plafonné sur la qualité métier et où le coût est matériel au volume actuel. Entreprises où la résidence des données ou la confidentialité client fait d'un modèle self-hosted ou sovereign-cloud une vraie préférence commerciale plutôt qu'un exercice de case à cocher. Ceci n'est pas pour les PME dont le cas d'usage tombe en dehors des verticaux supportés — le Domain-Expert LLM Lab sur mesure est le bon point d'entrée pour ces missions, à son propre calendrier et tarification. Ce n'est pas non plus pour les équipes sans données propriétaires ; sans l'actif données, un modèle vertical fine-tuné n'a aucun avantage durable sur l'API de frontière, et le Readiness Audit est la bonne première conversation.
Pas comme offre packagée, non. Les trois verticaux supportés le sont parce que le pipeline a été validé à travers assez de missions antérieures pour être tarifé comme un produit. En dehors de ces verticaux, le Domain-Expert LLM Lab sur mesure est la bonne mission — huit semaines, fine-tuning sur mesure, tarifé en conséquence. Si votre tâche est proche d'un vertical supporté sans être tout à fait dedans, la première conversation est gratuite et je vous dirai honnêtement si le pipeline packagé s'applique ou si le Lab sur mesure est le bon fit.
Parce que le pipeline pré-construit pour votre vertical — sélection du base model, couche de retrieval, template d'éval, stack d'inférence — est déjà assemblé depuis des missions antérieures. Dans le Lab sur mesure, ces décisions sont prises à neuf pour chaque client, ce qui est correctement tarifé pour les entreprises avec des tâches nouvelles. Dans l'offre packagée, ces décisions sont réutilisées, ce qui est correctement tarifé pour les PME avec des tâches qui ressemblent aux patterns sur lesquels le pipeline a été construit. Les quatre semaines que vous payez sont l'application spécialisée à vos données, l'éval contre votre baseline, et le déploiement sur votre infrastructure — pas le framework en dessous.
Nous le découvrons en semaine deux, et si la réponse est non, la mission se termine à ce moment et vous êtes remboursé du solde. Le pipeline pré-construit pour un vertical supporté a un taux de succès connu sur des données représentatives ; l'éval de semaine deux est explicitement le checkpoint où nous confirmons que le pattern tient pour vos données spécifiques. Si les données sont trop minces, la tâche hors du scope validé du pipeline, ou si l'API de frontière est déjà au plafond que votre tâche autorise, je le dirai par écrit. L'offre packagée est tarifée en supposant que le fit est réel ; quand il ne l'est pas, le résultat honnête est d'arrêter plutôt que de forcer un résultat.
Généralement non. Pour les verticaux packagés, l'inférence est assez petite pour tourner sur un GPU modeste dans un tenant sovereign-cloud européen — Scaleway, OVHcloud ou similaire — ou sur un prestataire d'inférence dédié comme Together ou Fireworks qui garde les données en région. L'entraînement se fait sur des GPUs loués et n'exige pas d'achat de hardware. La tarification forfaitaire inclut une enveloppe de coût pour l'inférence aux volumes PME typiques ; les charges plus lourdes poussent le modèle vers des GPUs on-premise, mais c'est une exception plutôt que le défaut.
Généralement non. Votre équipe possède le harnais d'éval, le pipeline de données et la recette, ce qui signifie que relancer l'entraînement sur un nouveau base model — Llama 5 quand il sort, une nouvelle release Mistral, une variante Qwen plus forte — est un exercice interne que votre équipe mène sans nouvelle mission Hyperion. La plupart des PME internalisent le réentraînement après la première mission ; certaines choisissent de mener une courte mission de refresh avec Hyperion quand un nouveau base model est matériellement meilleur, mais c'est optionnel et facturé séparément. La position d'ownership est délibérée : l'offre packagée est une mission, pas un retainer.
30 minutes. Je diagnostique votre situation, je vous dis honnêtement si ce service convient — et sinon, lequel conviendrait.