这不是定制化的 Domain-Expert LLM Lab,而是它面向中小企业的精简版本。一家有明确垂直用例的中小企业——合同审查、产品目录增强、费用归类——不应该为八周的定制研究付费,因为该垂直领域的流水线已经有 80% 是现成的。打包式项目使用一套经过筛选的基座模型、一层检索层,以及一套评估框架,这些都是 Hyperion 已经为一小组受支持的垂直领域搭建好的,再将它们应用到你的专有数据上。模型权重和评估框架归你所有;流水线模板归 Hyperion 所有。最终交付的是一个运行在你自己基础设施或主权云租户上的领域专家模型,按每个垂直领域固定收费,四周交付而非八周。今天受支持的垂直领域有意做得很窄——法律条款抽取、零售目录增强、会计发票抽取——因为让一项打包服务可行所需要的判断,必须建立在同一套流水线已经在多个客户身上得到验证、才能成为产品的基础之上。在这些垂直领域之外,定制化的 Lab 才是正确的切入点。
定制项目是按企业级定价的,而你不是企业。配备驻场 ML 工程师的八周微调项目,对那些有七位数 AI 预算、有真正 ML 团队来消化知识转移的公司来说定价是合理的。但对于只有单一垂直用例、技术团队仅两人的中小企业来说,定制项目就是杀鸡用牛刀。中小企业真正需要的,是那 20% 专属于自身数据的工作,搭载在同一垂直领域内各家企业通用的那 80% 之上。而这套经济账只有在通用的那 80% 已经现成的前提下才成立。
前沿 API 在通用任务上越做越好,在你的任务上却越来越差。GPT-4 和 Claude 每个季度都在广义基准上进步,而你的专项任务——法国商法中的合同条款抽取、时尚零售的 SKU 级目录增强、比利时会计中考虑增值税的费用归类——并不会随之提升。你在为一种通用智能支付溢价,而这种智能本就不可能在你那窄小的任务上胜出,而且“通用 API 输出”与“你的领域专家愿意签字认可的输出”之间的差距并没有在缩小。到了某个节点,诚实的答案是:你的垂直领域需要一个专项模型,通用 API 一直都只是权宜之计。
你的团队无法从零搭建一条微调流水线,即便能,那也是在浪费他们的时间。正确地微调一个模型——数据筛选、基座模型选型、评估框架搭建、量化权衡、部署——对一位经验丰富的 ML 工程师来说是一项跨越数周的工作。如果你有这样的工程师,他们应该去打磨你的产品。如果没有,那些教程会给你做出一个看起来训练过、却在评估中败下阵来的模型,而你不会知道原因。打包服务把这项跨越数周的工作压缩成一个四周的固定费用项目,配以为你这个特定垂直领域预先验证过的配方。
你需要让模型运行在前沿 API 提供商之外的某个地方。你的客户——律所、会计师事务所、区域零售商——有数据驻留方面的顾虑、客户保密义务,或行业监管要求,这些都让把他们的数据发送到一家美国超大规模云厂商成为一个商业问题,即便在技术上是被允许的。一个你拥有、部署在你自己基础设施或欧洲主权租户上的模型,是对这些顾虑的结构性答案,而前沿 API 供应商合同永远做不到这一点。对中小企业而言,这种姿态是一项真正的商业差异化优势,而不是一个合规勾选项。
本项目是 Hyperion Lifecycle 中的 ENGINEER 阶段,借助为你受支持垂直领域预构建的流水线,压缩到四周完成。你的团队提供专有数据,以及为输出打分的领域专家。流水线——基座模型、检索、评估模板、推理栈——已经搭建好。第一次沟通会确认你的垂直领域是否在受支持范围内;如果不在,定制化的 Lab 才是正确的项目,我们不会启动这一个。
你的数据进入流水线。我们针对打包垂直领域的要求——法律、零售或会计——审计其覆盖范围、授权情况和质量。评估框架会针对你垂直领域的任务定义被实例化,并在现役的前沿 API 上跑出一条基线,这样在任何训练开始之前我们就知道“胜出”意味着什么。如果数据覆盖太薄,或者任务定义落在受支持垂直领域之外,我们就在这里停下并退还余款;打包服务只有在契合度真实存在时才奏效。
为你垂直领域预选的基座模型——为这一任务画像挑选的某个特定 Llama 3、Mistral 或 Qwen 变体——会使用流水线配方在你筛选好的数据上进行微调。我们每天都跑评估框架,并在数据需要的地方迭代数据配比。到第二周结束时,模型要么在你的任务专属评估上击败前沿 API 基线,要么我们回退到次优配置并诚实记录其上限。打包服务只有在模型确实胜出时才值得付费。
推理会架设在你实际要运行它的地方——一个主权云租户、一块小型本地 GPU,或一家将数据保留在你所在司法辖区内的专用推理提供商。打包垂直领域的延迟和成本边界是固定的,因此我们针对一个已知目标进行调优,而不是去探索完整的设计空间。你这边的领域专家会在一批真实生产案例样本上对部署后模型的输出进行签字认可;这次签字就是验收标准。
我们会带你那两人的技术团队走一遍训练配方、评估框架和部署运行手册。模型、权重、数据流水线和评估都归你所有。流水线模板——那套让四周周期成为可能的跨客户脚手架——仍是 Hyperion 的知识产权;你付费购买的是把它针对你数据的专门化应用,而不是其底层框架。当更好的基座模型发布时,你的团队可以在一周内在新基座上重跑配方,无需进一步的合作。
法律服务、零售或会计领域的中小企业——这是打包流水线今天支持的三个垂直领域——拥有一项具体任务(合同条款抽取、目录增强、发票或费用归类),以及一个至少大到足以用于微调的专有数据集。适合那些现有前沿 API 方案在领域质量上已经触顶、且在当前吞吐量下成本已相当可观的团队。适合那些因数据驻留或客户保密要求而真正倾向于自托管或主权云模型、而非仅仅走个流程的企业。本服务不适合用例落在受支持垂直领域之外的中小企业——对那些项目而言,定制化的 Domain-Expert LLM Lab 才是正确的切入点,按其自身的周期和定价执行。它同样不适合没有专有数据的团队;没有数据资产,一个微调的垂直模型相对前沿 API 没有任何可持续的优势,此时 Readiness Audit 才是合适的第一次沟通。
作为打包服务则不行。这三个受支持的垂直领域之所以受支持,是因为流水线已经在足够多的过往项目中得到验证,从而可以按产品定价。在这些垂直领域之外,定制化的 Domain-Expert LLM Lab 才是正确的项目——八周、定制微调、相应定价。如果你的任务接近某个受支持的垂直领域但又不完全落在其中,第一次沟通是免费的,我会诚实地告诉你打包流水线是否适用,还是定制化的 Lab 才是合适的选择。
因为为你垂直领域预构建的流水线——基座模型选型、检索层、评估模板、推理栈——已经从过往项目中搭建好了。在定制化的 Lab 中,这些决策是为每个客户从头做起的,这对有新颖任务的企业来说定价是合理的。在打包服务中,这些决策被复用,这对那些任务看起来与流水线所基于模式相似的中小企业来说定价是合理的。你付费的这四周,是针对你数据的专门化应用、对照你基线的评估,以及在你基础设施上的部署——而不是其底层框架。
我们会在第二周就查明,如果答案是否定的,项目在那一刻终止,余款退还给你。受支持垂直领域的预构建流水线在代表性数据上有一个已知的成功率;第二周的评估正是明确用来确认这一模式在你特定数据上是否成立的检查点。如果数据太薄、任务超出流水线已验证的范围,或前沿 API 已经达到你任务所允许的上限,我会书面如实说明。打包服务的定价假定契合度真实存在;当它不存在时,诚实的结果是停止,而不是硬凑一个结果。
通常不需要。对于打包的这些垂直领域,推理规模足够小,可以在欧洲主权云租户中的一块普通 GPU 上运行——Scaleway、OVHcloud 或类似服务——或者运行在像 Together 或 Fireworks 这样将数据保留在区域内的专用推理提供商上。训练在租用的 GPU 上完成,不需要购买硬件。固定费用定价已包含中小企业典型吞吐量下的推理成本边界;更重的工作负载会把模型推向本地 GPU,但那是例外而非默认。
通常不用。你的团队拥有评估框架、数据流水线和配方,这意味着在新基座模型上重跑训练——Llama 5 发布时、新的 Mistral 版本、更强的 Qwen 变体——是你的团队自行完成的内部工作,无需 Hyperion 进一步参与。大多数中小企业在首个项目之后会把重训工作转到内部进行;有些会选择在新基座模型有实质性提升时,与 Hyperion 进行一次简短的刷新项目,但那是可选的,并单独定价。这种所有权安排是有意为之的:打包服务是一次性项目,而不是一份长期顾问合约。
30 分钟。我会诊断你的处境,坦诚告诉你这项服务是否合适——如果不合适,什么才合适。