很多人觉得,到了通用人工智能 (AGI) 时代,模型自己就能理解一切,人工干预显得多余。这种想法太天真。大模型确实强,但它不是魔法。在垂直领域落地时,你会发现,粗糙的数据喂进去,吐出来的结果照样没法用。这时候,老派的功夫反而成了胜负手。
数据标注:从体力活到策略战
过去做数据标注,就是找一堆兼职人员,对着图片画框、给文本打标签。现在不行了。面对 AGI 需要的复杂逻辑推理数据,简单的分类标签毫无意义。你需要的是“思维链”标注。比如训练一个医疗诊断助手,不能只标“患病”或“健康”,而要标注医生判断过程中的每一个推理节点:为什么排除 A 病?为什么怀疑 B 症?这种高维度的标注,靠众包平台根本搞不定,必须依赖领域专家。成本高吗?当然。但只有这种带逻辑深度的数据,才能让模型真正听懂行话,而不是只会说车轱辘话。
有人说特征工程已死,因为深度学习能自动提取特征。这话只对了一半。在图像和自然语言处理的大基座上,自动提取确实够用。但在金融风控、工业预测这些表格数据为主的场景里,原始数据里的噪声太多。直接把时间戳扔给模型,它可能学不出规律;但你把它转化成“距上次违约天数”、“夜间交易占比”,效果立刻不同。这就是特征工程的本质:把业务理解翻译成机器能消化的信号。在 AGI 时代,这一步并没有消失,而是前置了。你需要先通过提示词工程或微调,让模型具备提取关键信息的意识,这本身就是一种高级的特征构建。
实战中的平衡术
别迷信端到端。在实际项目中,最稳妥的做法是混合架构。用大模型处理非结构化数据,提取出关键特征,再结合传统的机器学习模型做最终决策。这样既利用了 AGI 的理解力,又保留了传统方法的可解释性和稳定性。数据标注要精不要多,特征工程要懂业务不要堆砌。技术再变,解决具体问题的逻辑不会变。与其焦虑被替代,不如把手头的数据洗得更干净一点。
声明:未经同意禁止任何个人或组织复制、盗用、采集、发布本站点内容到其他媒体平台。
