每一个月你把工业知识工作交给前沿 API 处理,你都在缴纳一笔税,并不断加深一份依赖。对于硬科技领域——维护工程、MES 运营、技术文档、PLC 与 SCADA 日志、质量检验记录——通用 API 是正确的起点;但一旦你积累了承载领域专家多年沉淀的隐性知识的专有数据,它就成了错误的长期选择。这是 Hyperion 生命周期中的 Build 阶段:一个为期 8 周的定制化微调项目,产出一个基于你专有工业语料训练的领域专家模型,在你的真实任务上与前沿 API 对标评估,并部署在你自己掌控的主权基础设施上。我们的 AI 运行时采用 Mistral 优先的开放权重模型——我们用自己构建的东西。我在开放权重模型上架构了 Auralink——170 万行生产代码、约 20 个自主智能体、arXiv 2603.08736——因为其经济性与控制权要求如此。我已交付 10 个 AI 项目,其中微调后的开放模型在领域任务上胜过前沿 API。这不是一项理论上的能力。
前沿 API 并不了解你的维护手册、你的 MES 事件代码或你的 PLC 故障命名体系。通用模型会臆造零件编号、误读那些看起来像普通文本的故障代码,并给出听起来合理却对你特定设备配置而言错误的维护建议。对于一个本就不知道正确答案的用户来说,有用的答案与“错误却自信”的答案之间的差距是不可见的——而这恰恰是模型本应创造价值的场景。一个基于你的维护语料、你的 MES 日志和你的技术文档训练的领域专家模型不存在这个问题。
你的工业数据正在为别人筑起护城河。你的工程师发往前沿 API 的每一次 MES 查询、故障代码检索或维护问答,都会经过供应商的基础设施。你的专有维护语料、你的故障处置历史、你针对特定设备的校准记录——这些承载着把你的厂区与竞争对手区分开来的数十年运营知识。把这些数据发往前沿 API 不会巩固你的知识优势,反而会稀释它。在受监管的工业环境中,这还会带来数据驻留与主权问题。
当供应商改变 API 行为时,你毫无应对手段。一次前沿 API 模型更新改变了故障代码的解读行为,你的维护副驾驶对同一输入开始给出不同的建议。你没有工程层面的应对——只有采购层面的应对。对于与安全相关的用例,模型行为的不一致不是小麻烦,而是潜在的责任风险。
你的工程团队跑通了微调教程,却没有交付出一个能在生产评估中胜出的模型。从“我在我们的维护手册上微调了一个模型”到“我交付了一个在我们的故障诊断任务上以统计显著性胜过 API 的模型”,这段距离正是大多数工业微调项目停滞之处。这不是算力问题,也不是数据量问题;这是判断力问题——基座模型选择、数据配比、评估方法——需要来自多个工业部署的模式识别能力。
项目分四个为期两周的阶段进行。我嵌入你的 ML 团队与领域专家团队协同工作——你的工程师做实操,我带来决策与模式库。任何工作都不会发生在我们无法掌控的供应商基础设施上。每一步,数据、权重、评估框架和部署都归你所有。
模型的好坏取决于数据,可衡量程度取决于评估框架。我会就覆盖度、质量、污染和授权情况审计你的专有工业语料:维护手册、MES/PLC 事件日志、技术文档、质量检验记录、SCADA 历史库导出、工程变更记录。我们定义对应你真实生产负载的评估任务——故障诊断准确率、维护步骤正确性、零件编号精度——而非通用 LLM 基准。我们先针对现有的前沿 API 搭建评估框架,建立一个真实的、待超越的基线。
依据你的任务画像,在 Mistral、Llama 3 和 Qwen 系列中进行基座模型选择——维护问答的指令遵循能力、故障诊断的推理深度、长技术文档的上下文长度。我们开展结构化实验——LoRA 与全量微调对比、跨维护手册与事件日志的数据配比消融、检查点集成——并将每一次运行与第二周的基线对标评估。我们记录哪些工业数据类型带来最大的提升,哪些对你的特定任务而言只是噪声。
我们将推理部署在你掌控的基础设施上:你自己本地部署的 GPU、你所在区域的主权云部署,或者一家在符合你工业与监管要求的数据处理协议下运营的专属推理供应商。量化、批处理策略、KV 缓存处理、服务框架——均针对你运营所需的延迟与成本范围进行优化。对于物理隔离环境或与 OT 相邻的部署,推理路径在设计上无需外部 API 调用即可运行。
与你的 ML 团队和领域专家团队进行工作坊,让他们掌握评估框架、训练流水线和推理部署。我会记录所有判断决策——基座模型选择、数据配比、量化权衡、哪些维护语料章节带来最大提升。当我离开时,你的团队无需我也能训练下一个版本。模型、权重、代码、评估——全都归你。
拥有专有维护手册、MES/PLC 事件日志、技术文档或质量检验记录的制造商、能源运营方、汽车 OEM 与航空航天主承包商,这些数据承载着通用训练数据中不存在的隐性领域知识。那些 ML 负责人或工程副总裁已经算过前沿 API 在当前用量 3 至 5 倍时的成本账、并知道单位经济性站不住脚的工程团队。那些因数据驻留、主权或 OT 安全要求而使前沿 API 依赖成为合规责任的工业运营方。这不适合没有专有工业数据的团队——通用微调并不能胜过前沿 API,在缺乏可立足的专有语料时不应尝试。
因为我们在第二周就会衡量它,早于任何训练开始之前。评估框架先针对前沿 API 基线构建,因此我们确切知道在你的特定工业任务上获胜需要达到什么水平。如果基线已经达到你的任务所允许的上限,我会在第二周告诉你,我们就此停止——你保留评估框架与诊断结论。在拥有真实专有工业数据的窄域任务上——故障诊断、维护步骤检索、MES 事件解读——一个训练得当的开放模型在任务准确率上始终胜出,并在成本与主权上占据绝对优势。
工业文档几乎总是多语言、多格式的:PDF、DOCX、结构化 MES 导出、专有历史库格式以及手写日志扫描件。第 1-2 周的数据梳理阶段会明确处理这些——格式提取、必要时的 OCR、去重、语言标注以及授权核查。我们记录哪些语料章节带来最大的任务提升、哪些是噪声,从而让训练数据投入有的放矢。
可以——而且对许多工业运营方来说,这是一项要求。第 6-7 周的部署阶段明确涵盖物理隔离与 OT 相邻的推理:量化模型运行在本地硬件上、推理路径中无外部 API 调用、并为间歇性或无连接而设计的状态同步。主权这件事是一项交付物,而非事后补充。
数据梳理阶段的设计旨在尽量减少领域专家的时间投入:先从现有来源(维护手册、MES 导出、技术文档)进行结构化文档采集,仅在补缺与评估任务定义环节安排与领域专家的定向问答。通常第一周 4 至 6 小时的领域专家时间就足以定义评估任务并验证数据范围。其余工作由 ML 团队完成。
30 分钟。我会诊断你的处境,坦诚告诉你这项服务是否合适——如果不合适,什么才合适。