Lifecycle stage — Build
OpenAIまたはAnthropicの上に構築された製品を毎月出荷するたび、税金を払い、他社の優位性を複利で高めています。ユースケースが未証明だった時、汎用APIは正しい選択でした——ユースケースを検証し、堀となるべきデータを蓄積し始めた後は、間違った選択です。これはLifecycleのENGINEERフェーズ: 独自データで訓練され、実際のタスクでフロンティアAPIと比較評価され、御社が所有するインフラにデプロイされたドメインエキスパートモデルを生み出す、8週間のオーダーメイドのファインチューニングエンゲージメントです。Auralink——170万行のコード、約20の自律エージェント、arXivで査読済み——をオープンウェイトモデルで設計しました。経済性と管理ポジションがそれを要求したからです。ファインチューニング済みオープンモデルがドメインタスクでフロンティアAPIに勝つ10のAIベンチャーを出荷してきました。これは理論上の能力ではありません。
ユーザーが増えるたびにユニットエコノミクスが圧迫されます。ローンチ時、汎用API呼び出しは1000トークンあたり0.004ユーロでした。利用が成長し、価格が動き、アクティブユーザーあたりのブレンドコストは初期モデルの想定の3.2倍になっています。新規ユーザーごとにマージンが悪化していく——ソフトウェアビジネスが本来すべきことの正反対です。現在の軌道では、API行は4四半期以内に最大単一支出となり、レバーはユーザーをスロットルするか価格を上げるかのみ。どちらも成長戦略ではありません。
御社のドメインデータが他社の堀を築いています。ユーザーがフロンティアAPIに送るクエリはすべてプロバイダーのインフラを通過し、ティアによっては将来の訓練に寄与する可能性があります。寄与しない場合でも、独自の能力を複利で高めているのではなく——借りているのです。競争上の堀は、他社が持たないデータであるべきです。そのデータをOpenAIやAnthropicに送ることは堀を強化せず、希薄化します。規制産業——法律、医療、産業、金融——では、答えられない監査およびデータレジデンシー問題も生みます。
プロバイダーが条件を変えた時、御社には対抗手段がありません。OpenAIが90日予告でモデルを廃止し、本番品質が一夜で後退する。Anthropicがレート制限を変更し、エンタープライズ顧客がデモ中にスロットリングに当たる。価格が40%動き、CFOが答えられない質問をしてくる。ベンダーがボトルネックになる時、エンジニアリング対応はなく——調達対応のみです。製品が前四半期とまったく同じ動作のAPIに依存する企業にとって、居心地の悪いポジションです。
チームはブログ記事を読んだものの、モデルを出荷できません。エンジニアはファインチューニングチュートリアルを見て、おもちゃデータセットでLoRAを実行し、Hugging Faceカードを投稿し、勝利宣言をしました。していないのは、統計的有意性をもって本番トラフィックでAPIに勝つモデルを、現役と同じ評価基準で生み出すことです。「モデルをファインチューニングした」と「評価に勝つモデルを出荷した」の間の距離で、95%のチームが失敗します。チュートリアルの問題ではなく——判断の問題です。
エンゲージメントは2週間×4フェーズで進みます。御社MLチームに組み込まれて作業します——御社のエンジニアが手を動かし、私は意思決定とパターンライブラリを持ち込みます。管理できないベンダーインフラ上での作業は行いません。データ、ウェイト、評価ハーネス、デプロイメントは各ステップで御社が所有します。
モデルはデータの質と同じだけ良く、評価ハーネスと同じだけ計測可能です。独自コーパスをカバレッジ、品質、汚染、ライセンスについて監査します。実際の本番ワークロードにマップする評価タスクを定義します——汎用ベンチマークではありません。まず現役フロンティアAPIに対して評価ハーネスを構築し、打ち負かすべき実ベースラインを持ちます。第2週末までに、勝利とは数字上何を意味するかがわかります。
タスクプロファイルに基づくLlama 3、Mistral、Qwenファミリーからのベースモデル選定——指示追従、推論深度、コンテキスト長、推論コスト。構造化実験を実行します——LoRA対フルファインチューン、データミックスのアブレーション、チェックポイントアンサンブル——そしてすべての実行を第2週のベースラインに対して評価します。ほとんどの実行は負けます。それは想定内です。目標は、リーダーボードで勝つものではなく、御社のタスクで信頼できる形で勝つ構成を見つけることです。
実際に運用するインフラ——御社独自のGPU、TogetherやFireworksのような専用プロバイダー、規制対象ワークロード向けのオンプレミスデプロイ——で推論を立ち上げます。製品が要求するレイテンシとコストのエンベロープに最適化します: 量子化、バッチ戦略、KVキャッシュ処理、サービングフレームワーク。出力は本番SLAを満たすデプロイメントと、ビジネスケースが要求したマージンで現役APIを打ち負かすリクエストあたりコストです。
御社MLチームが評価ハーネス、訓練パイプライン、推論デプロイメントを所有できるようワーキングセッションを実施。判断を文書化します——なぜこのベースモデルを選んだか、なぜこれらのデータミックスを却下したか、なぜこの量子化トレードオフを受け入れたか。私が去る時、御社チームは私なしで次のバージョンを訓練できます。リテイナーなし、継続的な依存なし。モデル、ウェイト、コード、評価——すべて御社のものです。
フロンティアモデルで年間100万以上のAPI呼び出しを行い、防御可能な垂直領域——法律、医療、産業、金融、科学——に独自ドメインデータを持つエンタープライズおよび資金調達済みスタートアップ。CAIOまたはVPエンジニアリングが現在の3〜5倍使用時のAPIコストの計算を既に行い、モデルが生き残らないと知っている製品チーム。データレジデンシー、監査、IP制約がフロンティアAPI依存を負債にする規制産業。独自データを持たないチーム向けではありません——汎用ファインチューンはフロンティアAPIに勝たず、試みるべきではありません。CapExが損益分岐計算を通らない呼び出し量閾値以下のチーム向けでもありません——レディネス監査の方が良い入口です。
訓練を開始する前の第2週に計測するからです。評価ハーネスはまずフロンティアAPIベースラインに対して構築されるため、勝利に何が必要かを正確に把握します。ベースラインがタスクの許す天井に既に達している場合、第2週にお伝えし、そこで止めます——評価ハーネスと診断を持ち帰っていただき、訓練には進みません。実際には、実独自データを持つ狭いドメインタスクでは、十分に訓練されたオープンモデルが品質で勝ち、コストで圧倒します。広範な汎用タスクでは、フロンティアAPIがまだ先行しており、その場合はそう申し上げます。
再訓練します。御社チームが評価ハーネスと訓練パイプラインを所有しているため、新しいベースモデルでレシピを再実行するのは8週間ではなく1〜2週間の作業です。意思決定ログに文書化された判断は引き継がれます。これがウェイトを所有することとAPIを借りることの構造的な優位性です——基礎技術が改善された時、御社チームはプロバイダーのタイムラインではなく自社のタイムラインで改善を捕捉します。
訓練には通常必要ありません、推論には時に必要です——コストプロファイルと規制姿勢によります。8週間の訓練は通常、モデルサイズと実験数によって合計15k〜40kユーロ前後でレンタルH100上で実行されます。推論の判断はケースバイケースです: CapExなしの専用推論にはTogetherまたはFireworks、大量ボリュームで最大の管理とマージンには独自GPU、規制対象データにはオンプレミス。第6週に3つのオプションすべてでコストモデルを構築するため、判断は仮定ではなく数字で行われます。
チームが既に本番評価でフロンティアAPIに統計的有意性をもって勝つファインチューニング済みモデルを出荷しているなら、おそらく必要ありません。ほとんどのチームはしていません——チュートリアル作業は行いましたが、判断作業は行っていません。8つの本番デプロイメントからのパターン認識を持ち込みます: どのタスクプロファイルにどのベースモデル、どのデータミックスが信頼できる形で役立ちどれが有望に見えて害をなすか、どの量子化ティアがどの規模で安全か。御社チームが作業を行い——私は現在の能力と本番のモデルの間の距離を数イテレーション分短縮します。
訓練は御社が承認するインフラで、コンプライアンス要件に合うデータ処理契約の下で行われます。規制対象ワークロード——医療、法律、金融——ではオンプレミスまたはソブリンクラウドGPUを使用し、必要なものには署名します。独自コーパスはこのエンゲージメントのどのフェーズでもフロンティアプロバイダーのインフラに触れません——それがポイントの一部です。データレジデンシーの物語は成果物であり、後知恵ではありません。
30分で状況を診断し、このサービスが合うかどうか正直にお伝えします。合わなければ、何が合うかも。