过去做机器学习,最头疼的往往不是模型结构,而是数据。
为了训练一个能识别发票的模型,你得先找几千张发票,人工标注字段,清洗噪点,再花几周时间调参。一旦业务场景从“增值税专票”变成“定额发票”,之前的工作大半白费。这种从零开始的重复劳动,曾是行业常态。
预训练模型的出现,把这套逻辑彻底翻了个面。
现在的思路变了。我们不再试图教模型认识每一张具体的发票,而是直接调用已经读过互联网绝大部分文本的大模型。
这些模型在海量数据中“预训练”过,它们懂语法、懂逻辑,甚至懂一点常识。当我们需要处理垂直场景时,不需要从头训练,只需要做两件事:提示(Prompting)和微调(Fine-tuning)。
这就像招聘员工。以前是招高中生从头培养;现在是招一个博士毕业生,只让他熟悉你们公司的内部规章。后者上手速度极快,且底线能力极高。
但别以为接个 API 就万事大吉。落地过程中的摩擦,远比演示视频里看起来粗糙。
首先是幻觉问题。在通用聊天里,模型胡诌一个历史日期可能无伤大雅;但在医疗或金融场景,一个字错了就是事故。其次是成本与延迟。每次请求都携带大量上下文,Token 消耗惊人,响应速度也难以满足实时性要求极高的 C 端应用。
我们曾在一家电商客服项目中遇到瓶颈。直接使用通用大模型回答售后问题,准确率只有 70%,且经常编造不存在的优惠政策。

解决方案并非更换更大的模型,而是回归数据本身。我们构建了基于 RAG(检索增强生成)的流程,将官方政策文档切片入库。模型不再“回忆”知识,而是先“查阅”文档,再组织语言。
关键不在于模型有多聪明,而在于你如何限制它的发挥空间,让它只在可信的数据范围内作答。
这种转变迫使团队技能树发生偏移。
传统的机器学习工程师擅长特征工程和模型调优,而在预训练模型时代,核心能力变成了数据清洗、向量数据库管理以及评估体系的构建。
你需要建立一套自动化的评估流程(Eval),而不是靠肉眼看几个案例。比如,针对客服场景,专门测试模型在面对愤怒用户时的情绪稳定性,或者在处理复杂退款规则时的逻辑一致性。
机器学习并没有消失,它只是换了一种存在形式。它从一种需要极高门槛的“炼金术”,变成了像水电煤一样的基础设施。
对于大多数企业而言,纠结于是否要自研基座模型毫无意义。真正的机会,藏在那些被大厂忽略的、琐碎却具体的垂直场景里。
把通用能力塞进狭窄的业务管道,修剪掉多余的枝叶,这才是当下最务实的做法。
