Lifecycle stage — Ship
前四半期に出荷したAIパイロットは、パイロットがすべきことをしています——実ユーザー、実結果、実フィードバック——そして次に負うコミットメントは、現行システムが構築された規模より大きなものです。エンタープライズローンチ、公共セクター本稼働、中小企業の複数拠点ロールアウト、シリーズA調達——どれも、パイロットが許容できたが本番システムが許容できないギャップを露呈する商業ステージゲートです。これはDEPLOYメソッドのLAUNCHフェーズ: 動作中のパイロットをレディネス評価、評価と可観測性、セキュリティとコンプライアンス、スケーリング準備まで通す12週間の組み込みエンゲージメントです。作業は華やかでなく、エンジニアリングチームが四半期を費やしたいものではめったにありません——しかし、パイロットを本番システムに変換する組織と、永遠にパイロットし続ける組織を分けるのは、この作業です。Auralink——170万行の本番コード、約20の自律エージェントがインシデントの78%を人間の介入なしに解決、arXivで査読済み——を設計し、8つのAIベンチャーを本番化しました。Berkeley SkyDeckメンターとして、まさにこの移行を通じて30以上のAIスタートアップに助言してきました。失敗パターンは繰り返し、修正は既知で、順序が重要です。
パイロットまで到達させた評価プラクティスは、「このモデル更新が改善したか後退したか」に答えられません。開発中はスポットチェックと小さな検証セットで評価しました。本番評価は異なる規律——構造化評価スイート、リグレッションテスト、統計的方法論、客観的品質ベースライン——です。それなしでは、すべてのモデル変更は賭けになります。主要ステークホルダー——エンタープライズ顧客、規制当局、大臣スポンサー、取締役会メンバー——が初めてシステムが良くなったことを証明せよと求めた時、答えがなく、ステージゲートが停滞します。
システムが壊れていると、ダッシュボードではなくステークホルダーから聞かされます。AI固有の可観測性がありません: 実負荷下のレイテンシ分布なし、モデルドリフト検知なし、リクエストあたりコスト追跡なし、重要な故障モードのアラートなし。すべてのインシデントは数日単位のフォレンジック作業になります。パイロットではこれが許容されます——全員が同じ部屋にいるからです。本番では許容されません——コミットメントが大きく、部屋が広いからです。
SOC 2、GDPR、PII防御、監査証跡は願望的で、最初の本番コミットメントは容赦ありません。エンタープライズ調達チームはSOC 2レポートを求めます。公共セクタースポンサーは有効なデータレジデンシー声明を求めます。EU AI法リスク分類が待っています。パイロット中に機能したPIIリダクション戦略は、コンプライアンスレビュアーが受容する形式で文書化されていません。これらは調達会話または監査に3週間入るまで不可視で——その時点で作業はスプリントではなく四半期単位になります。
推論パスは現実的な同時トラフィックで負荷テストされたことがありません。ボトルネックがモデルサービング、ベクターデータベーススループット、LLMプロバイダーレート制限、または自社バックエンドのどれかわかりません。パイロットはパイロット規模で動作しました。商業ロールアウトはコミットメントに応じてその負荷を5〜50倍にします。実同時トラフィックに初めて当たる時、どの層が壊れるかが判明します——そしてそれは、ステージゲートの承認がかかっている人々の前で判明します。
エンゲージメントは3週間×4フェーズで進みます。御社チームに組み込まれて作業します——御社のエンジニアが構築し、私はレディネスランキング、評価方法論、コンプライアンス順序、そして自社本番システムおよびまさにこの移行を通じた30以上のAIスタートアップで実行したスケーリングテストを持ち込みます。目標は機能するものを再構築することではなく——希望ではなく証拠で次の商業ステージゲートをクリアするシステムにハードニングすることです。
現行システムを深く掘り下げます——コード、インフラ、データパイプライン、評価プラクティス、セキュリティ姿勢、可観測性、運用準備。4ティアでランク付けされた書面のレディネス評価を作成します: ステージゲートブロッカー(今すぐ修正、対応しないと次のコミットメントが失敗)、運用ブロッカー(今四半期で修正、対応しないと商業規模で運用できない)、スケーリングリスク(負荷を倍増する前に修正)、磨き上げ(キャパシティが許したら修正)。各項目に工数見積もりとオーナー案が付きます。洗練された技術デューデリジェンスまたはエンタープライズ調達レビューが浮上させるのと同じ作業です——ただし敵対者ではなく味方から生み出されます。
パイロットに欠けていて、本番バージョンがなしでは生きられない2つのシステム。ベースライン、リグレッションテスト、客観的品質指標付きの構造化評価パイプラインを構築します——チームが指をクロスするのではなく計測可能な自信でモデル更新を出荷できるように。AI固有の可観測性を立ち上げます: レイテンシ分布、トークン会計、リクエストあたりコスト、モデルドリフト検知、インシデント中に運用チームが読むダッシュボード。これらは私が引き渡して去る成果物ではなく、チームの日常ツールになります。
監査ログ、アクセス制御、プロンプトインジェクション防御、PII取り扱い、データ保持ポリシー、そしてSOC 2、GDPR、またはEU AI法レビュアーが実際に受容する文書証跡。公共セクターエンゲージメントでは、レジデンシーとソブリンティの物語がアーキテクチャに組み込まれ、後付けではありません。規制産業では、エビデンスチェーンはコンプライアンスリードが取り組んでいる体制に合います。正しく行えば、このフェーズは3週間で、堅牢な基礎が手に入ります。間違って行えば——調達期限の2週間前に開始した時に起きる——最も重要なコミットメント中に6ヶ月のコンプライアンスデスマーチになります。最初から正しく行います。
これから行うコミットメント——エンタープライズロールアウトサイズ、公共セクターユーザーベース、中小企業複数拠点フットプリント、シリーズAデッキの成長曲線——に基づく現実的な負荷パターン。ボトルネック——モデルサービング飽和、ベクターデータベーススループット、LLMプロバイダーレート制限、バックエンド結合——を見つけ、実際に見る負荷で噛みついてくるものを修正します。受容を選択するものと、そのトレードオフが重要になり始めた時にチームが見るべきシグナルを文書化します。スケーリング変曲点は驚きである必要はありません。
AI製品ローンチまたは最初の主要顧客デプロイメントを準備するエンタープライズ。大臣または規制当局の可視性を持つ本稼働に近づく公共セクター機関。成功したパイロットを1拠点から複数拠点フットプリントにロールしている中小企業。本番準備を検査するデューデリジェンスプロセスを伴うシリーズAに向かうAIネイティブスタートアップ。パイロットに実ユーザーがおり、商業ステージゲートがカレンダー上にあり、現行システムがこれから来るもの向けに構築されていないとチームが知る、あらゆる組織。「パイロット」がノートブックのチーム向けではありません——そうした組織はまず戦略スプリントまたはレディネス監査を必要とします。エンゲージメントと組み込む余地のエンジニアリングキャパシティを持たない組織向けでもありません——引き継ぎモデルは第12週以降システムを所有するチームを前提としています。
パイロットはパイロット負荷、パイロットユーザー、パイロット許容度向けに構築されたからです。これから来る商業コミットメント——エンタープライズローンチ、本稼働、複数拠点ロールアウト、資金調達のいずれでも——は負荷を倍増し、許容度のバーを引き上げ、「テストで動く」を受容しないレビュアーを追加します。第1週に評価するパイロットの約3分の1は、チームが考えていたより本番準備に近いと判明し、そうしたケースではエンゲージメントは完全プログラムではなく具体的なギャップに焦点を当てます。完全プログラムが正当化されるか、第3週に正直にお伝えします。
スタートアップサービスはシリーズAデューデリジェンス、エンタープライズ顧客調達、AIネイティブスタートアップの特定の故障モードに合わせて調整されています。このサービスは、エンタープライズローンチ、公共セクター本稼働、中小企業複数拠点ロールアウト、スタートアップ資金調達にわたって一般化された同じ方法論です。シリーズA前のAIネイティブスタートアップの場合、言語と成果物がステージゲートに合わせて調整されているため、スタートアップ固有版の方が良い適合です。他のすべての聴衆はこれを使用すべきです。
はい、そしてしばしばそうします。御社SIが統合層、エンタープライズデータ配管、変更管理、または彼らが起用されたスコープを所有します。私はAI固有の本番準備——評価、可観測性、AIセキュリティ、推論スケーリング——を所有します。作業成果物が整合し、運用チームへの引き継ぎが綺麗になるよう毎週ミーティングします。大手SIおよび専門企業と並走してこれを行ってきました——双方がスコープを尊重する時、境界は機能します。
その場合、おそらくこれは正しいエンゲージメントではありません。パイロットから本番へのハードニングは本番準備プログラムであり、モデル改善プログラムではありません。パイロットのモデル品質が問題の場合、Domain-Expert LLM Labが必要です。パイロットのアーキテクチャが問題の場合——特にマルチエージェントシステム——エージェンティックシステム・エンジニアリングが必要です。第1週に正直にその判断を行います。基礎モデルまたはアーキテクチャがボトルネックのシステムでレディネスプログラムを実行するのは、予算の無駄です。
パイロットから本番スコープでは、はい、リスク分類が要求するレベルまで。限定リスクまたは最小リスクシステムでは、コンプライアンス作業はセキュリティおよびコンプライアンスフェーズ内に収まります。高リスクシステムでは、EU AI法作業はそれ自体のワークストリームでこのエンゲージメントと並走するほど実質的です。分類に基づいて第1週にスコープし、コンプライアンス負担がこのエンゲージメントを引き延ばすより別エンゲージメントを正当化する場合、明示的にそう申し上げます。
30分で状況を診断し、このサービスが合うかどうか正直にお伝えします。合わなければ、何が合うかも。