Lifecycle stage — Build
Das ist nicht das maßgeschneiderte Domain-Expert LLM Lab. Es ist dessen KMU-Adaption. Ein kleines oder mittleres Unternehmen mit einem spezifischen vertikalen Anwendungsfall — Vertrags-Review, Produktkatalog-Anreicherung, Spesenklassifizierung — sollte nicht für acht Wochen maßgeschneiderte Forschung zahlen, wenn die Pipeline für diese Vertikale bereits zu 80 % gebaut ist. Das Packaged Engagement nutzt ein kuratiertes Basismodell, eine Retrieval-Schicht und einen Eval-Harness, die Hyperion für einen kleinen Satz unterstützter Vertikalen bereits zusammengestellt hat, und wendet sie auf Ihre proprietären Daten an. Sie behalten die Gewichte und den Eval-Harness; Hyperion behält die Pipeline-Vorlage. Das Ergebnis ist ein Domain-Expert-Modell, das auf Ihrer Infrastruktur oder einem souveränen Cloud-Tenant läuft, zum Festpreis pro Vertikale, geliefert in vier statt acht Wochen. Die heute unterstützten Vertikalen sind bewusst schmal — juristische Klausel-Extraktion, Retail-Katalog-Anreicherung und Accounting-Rechnungs-Extraktion —, weil die Urteilsentscheidungen, die ein Packaged-Angebot tragfähig machen, verlangen, dass dieselbe Pipeline vor dem Produktstatus über mehrere Kunden hinweg validiert wurde. Außerhalb dieser Vertikalen ist das maßgeschneiderte Lab der richtige Einstieg.
Das maßgeschneiderte Engagement ist für Enterprises bepreist, und Sie sind keines. Achtwöchige Fine-Tuning-Programme mit eingebetteten ML-Engineers sind korrekt für Unternehmen mit siebenstelligen KI-Budgets und einem echten ML-Team für den Wissenstransfer bepreist. Für ein KMU mit einem einzelnen vertikalen Use Case und einem Zweipersonen-Technikteam ist das maßgeschneiderte Engagement Overkill. Was das KMU tatsächlich braucht, sind die 20 % der Arbeit, die für seine Daten einzigartig sind, aufsetzend auf den 80 %, die über Unternehmen derselben Vertikale gemeinsam sind. Diese Ökonomie funktioniert nur, wenn die gemeinsamen 80 % bereits gebaut sind.
Frontier-APIs werden auf allgemeinen Aufgaben ständig besser und auf Ihren schlechter. GPT-4 und Claude verbessern sich quartalsweise auf breiten Benchmarks, und Ihre Spezialaufgabe — Vertragsklausel-Extraktion im französischen Handelsrecht, SKU-genaue Katalog-Anreicherung im Fashion-Retail, USt.-bewusste Spesenklassifizierung in belgischer Buchhaltung — zieht nicht mit. Sie zahlen einen Aufschlag für allgemeine Intelligenz, die ohnehin nie Ihre enge Aufgabe gewinnen würde, und die Lücke zwischen „generischer API-Ausgabe“ und „Ausgabe, die Ihre Fachexpertin abzeichnen würde“ schließt sich nicht. Irgendwann ist die ehrliche Antwort, dass Ihre Vertikale ein Spezialmodell verlangt und die generalistische API immer nur eine Überbrückung war.
Ihr Team kann keine Fine-Tuning-Pipeline von Grund auf bauen, und es wäre eine schlechte Zeitnutzung, wenn es das könnte. Ein Modell korrekt feinzutunen — Daten-Kuratierung, Basismodell-Auswahl, Eval-Harness-Bau, Quantisierungs-Trade-offs, Deployment — ist ein mehrwöchiger Arbeitsstrang für eine erfahrene ML-Engineerin. Wenn Sie diese Engineerin haben, sollte sie an Ihrem Produkt bauen. Wenn Sie sie nicht haben, liefern die Tutorials ein Modell, das trainiert aussieht, aber die Eval verliert, und Sie werden nicht wissen, warum. Das Packaged-Angebot verdichtet den mehrwöchigen Arbeitsstrang zu einem vierwöchigen Festpreis-Engagement mit einem vorvalidierten Rezept für Ihre spezifische Vertikale.
Das Modell muss irgendwo laufen, das nicht ein Frontier-API-Anbieter ist. Ihre Mandanten — Kanzleien, Steuerkanzleien, regionale Händler — haben Datenresidenz-Bedenken, Mandantenvertraulichkeitspflichten oder sektorale Regulierung, die es zu einem kommerziellen Problem macht, ihre Daten an einen US-Hyperscaler zu senden, selbst wenn es technisch erlaubt ist. Ein Modell, das Ihnen gehört, auf Ihrer Infrastruktur oder einem europäischen souveränen Tenant eingesetzt, ist eine strukturelle Antwort auf diese Bedenken, wie es ein Frontier-API-Anbietervertrag nie sein wird. Für ein KMU ist diese Posture ein echtes kommerzielles Unterscheidungsmerkmal, kein Compliance-Häkchen.
Das Engagement ist die ENGINEER-Phase der Hyperion Lifecycle, komprimiert auf vier Wochen durch die vorgebaute Pipeline für Ihre unterstützte Vertikale. Ihr Team liefert die proprietären Daten und die Fachexpertin, die die Ausgabe benotet. Die Pipeline — Basismodell, Retrieval, Eval-Vorlage, Inferenzstack — ist bereits zusammengestellt. Das erste Gespräch bestätigt, dass Ihre Vertikale im unterstützten Set liegt; wenn nicht, ist das maßgeschneiderte Lab das richtige Engagement, und wir starten dieses hier nicht.
Ihre Daten landen in der Pipeline. Wir auditieren Abdeckung, Lizenzierung und Qualität gegen die Anforderungen der gepackten Vertikale — Legal, Retail oder Accounting. Der Eval-Harness wird gegen die Aufgabendefinition Ihrer Vertikale instanziert, und eine Baseline auf der Incumbent-Frontier-API wird gefahren, sodass wir wissen, wie Gewinnen aussieht, bevor irgendein Training beginnt. Wenn die Datenabdeckung dünn ist oder die Aufgabendefinition außerhalb der unterstützten Vertikale fällt, stoppen wir hier und erstatten den Restbetrag; das Packaged-Angebot funktioniert nur, wenn der Fit real ist.
Das für Ihre Vertikale vorausgewählte Basismodell — eine spezifische Llama-3-, Mistral- oder Qwen-Variante, gewählt für dieses Aufgabenprofil — wird mit dem Pipeline-Rezept auf Ihren kuratierten Daten feingetunt. Wir fahren den Eval-Harness täglich und iterieren am Datenmix, wo die Zahlen es verlangen. Am Ende von Woche zwei schlägt das Modell entweder die Frontier-API-Baseline auf Ihrer aufgabenspezifischen Eval, oder wir kehren zur nächstbesten Konfiguration zurück und dokumentieren die Obergrenze ehrlich. Das Packaged-Angebot ist nur dann sein Geld wert, wenn das Modell tatsächlich gewinnt.
Die Inferenz wird dort aufgesetzt, wo Sie sie tatsächlich betreiben — ein souveräner Cloud-Tenant, eine kleine On-Premise-GPU oder ein dedizierter Inferenz-Anbieter, der die Daten in Ihrer Jurisdiktion hält. Das Latenz- und Kostenbudget ist für die gepackten Vertikalen fest, sodass wir gegen ein bekanntes Ziel tunen und nicht den vollen Design-Raum erkunden. Die Fachexpertin auf Ihrer Seite zeichnet die Ausgabe des eingesetzten Modells über eine Stichprobe echter Produktionsfälle ab; diese Abzeichnung ist das Abnahmekriterium.
Ihr Zweipersonen-Technikteam wird durch das Trainingsrezept, den Eval-Harness und das Deployment-Runbook geführt. Modell, Gewichte, Datenpipeline und Eval gehören Ihnen. Die Pipeline-Vorlage — das kundenübergreifende Gerüst, das die vierwöchige Timeline ermöglichte — bleibt geistiges Eigentum von Hyperion; Sie zahlen für deren spezialisierte Anwendung auf Ihre Daten, nicht für das darunterliegende Framework. Wenn ein besseres Basismodell ausgeliefert wird, kann Ihr Team das Rezept in unter einer Woche ohne weiteres Engagement auf dem neuen Basismodell neu fahren.
Kleine und mittlere Unternehmen in Legal Services, Retail oder Accounting — den drei Vertikalen, die die Packaged-Pipeline heute unterstützt — mit einer spezifischen Aufgabe (Vertragsklausel-Extraktion, Katalog-Anreicherung, Rechnungs- oder Spesenklassifizierung) und einem proprietären Datensatz, der mindestens groß genug ist, um darauf fine-tunen zu können. Teams, bei denen die bestehende Frontier-API-Lösung an der Domänen-Qualität plateau erreicht hat und die Kosten beim aktuellen Volumen materiell sind. Unternehmen, bei denen Datenresidenz oder Mandantenvertraulichkeit ein selbstgehostetes oder souveränes Modell zur echten kommerziellen Präferenz macht statt zur Pflichtübung. Das ist nicht für KMU, deren Use Case außerhalb der unterstützten Vertikalen liegt — das maßgeschneiderte Domain-Expert LLM Lab ist dort der richtige Einstieg, mit eigener Timeline und Preisgestaltung. Es ist auch nicht für Teams ohne proprietäre Daten; ohne Datenasset hat ein feingetuntes Vertikalmodell keinen belastbaren Vorteil gegenüber der Frontier-API, und das Readiness-Audit ist dort das richtige Erstgespräch.
Nicht als Packaged-Angebot, nein. Die drei unterstützten Vertikalen werden unterstützt, weil die Pipeline über genug vorhergehende Engagements validiert wurde, um als Produkt bepreist zu werden. Außerhalb dieser Vertikalen ist das maßgeschneiderte Domain-Expert LLM Lab das richtige Engagement — acht Wochen, maßgeschneidertes Fine-Tuning, entsprechend bepreist. Wenn Ihre Aufgabe einer unterstützten Vertikale nahekommt, aber nicht ganz hineinfällt, ist das erste Gespräch kostenfrei, und ich sage Ihnen ehrlich, ob die Packaged-Pipeline passt oder ob das maßgeschneiderte Lab die richtige Wahl ist.
Weil die für Ihre Vertikale vorgebaute Pipeline — Basismodell-Auswahl, Retrieval-Schicht, Eval-Vorlage, Inferenzstack — aus vorhergehenden Engagements bereits zusammengestellt ist. Im maßgeschneiderten Lab werden diese Entscheidungen für jeden Kunden frisch getroffen, was korrekt für Enterprises mit neuartigen Aufgaben bepreist ist. Im Packaged-Angebot werden diese Entscheidungen wiederverwendet, was korrekt für KMU mit Aufgaben bepreist ist, die den Mustern der Pipeline ähneln. Die vier Wochen, für die Sie zahlen, sind die spezialisierte Anwendung auf Ihre Daten, die Eval gegen Ihre Baseline und das Deployment auf Ihrer Infrastruktur — nicht das Framework darunter.
Wir finden es in Woche zwei heraus, und wenn die Antwort Nein ist, endet das Engagement an diesem Punkt, und Sie erhalten den Restbetrag zurückerstattet. Die vorgebaute Pipeline für eine unterstützte Vertikale hat eine bekannte Erfolgsquote auf repräsentativen Daten; die Woche-2-Eval ist explizit der Checkpoint, an dem wir bestätigen, dass das Muster für Ihre spezifischen Daten hält. Wenn die Daten zu dünn sind, die Aufgabe außerhalb des validierten Scopes der Pipeline liegt oder die Frontier-API bereits an der Decke liegt, die Ihre Aufgabe erlaubt, sage ich das schriftlich. Das Packaged-Angebot ist bepreist unter der Annahme, dass der Fit real ist; wenn das nicht so ist, ist das ehrliche Ergebnis, zu stoppen, statt ein Ergebnis zu erzwingen.
Meist nein. Für die gepackten Vertikalen ist die Inferenz klein genug, um auf einer moderaten GPU in einem europäischen souveränen Cloud-Tenant — Scaleway, OVHcloud oder ähnlich — oder bei einem dedizierten Inferenz-Anbieter wie Together oder Fireworks zu laufen, der die Daten in der Region hält. Das Training erfolgt auf gemieteten GPUs und verlangt keinen Hardware-Kauf. Die Festpreis-Gestaltung enthält ein Kostenbudget für Inferenz bei typischen KMU-Volumen; schwerere Workloads drängen das Modell Richtung On-Premise-GPUs, aber das ist die Ausnahme, nicht die Regel.
Normalerweise nicht. Ihr Team besitzt den Eval-Harness, die Datenpipeline und das Rezept, was bedeutet, dass das Neu-Fahren des Trainings auf einem neuen Basismodell — Llama 5, wenn es landet, ein neues Mistral-Release, eine stärkere Qwen-Variante — eine interne Übung ist, die Ihr Team ohne weiteres Engagement von Hyperion fährt. Die meisten KMU holen das Retraining nach dem ersten Engagement ins Haus; einige wählen ein kurzes Refresh-Engagement mit Hyperion, wenn ein neues Basismodell materiell besser ist, aber das ist optional und separat bepreist. Die Ownership-Position ist bewusst: Das Packaged-Angebot ist ein Engagement, kein Retainer.
30 Minuten. Ich diagnostiziere Ihre Situation und sage Ihnen ehrlich, ob dieser Service passt — und wenn nicht, welcher.