最近圈子里都在谈“数据飞轮”,好像只要把合成数据喂得足够多,大模型就能变得全知全能。尤其当大家被频繁的模型幻觉搞得焦头烂额时,这种用算法生成算法训练数据的思路,听起来像是一剂完美的解药。

但现实往往没那么性感。如果你真以为靠无限生成的文本就能抹平事实错误,那大概率会掉进另一个坑:一个逻辑自洽、却完全脱离现实的“回音室”。

合成数据最大的诱惑在于“可控”。想要一万条客服对话?没问题。想要十万行带注释的代码?分分钟搞定。这些数据干净、格式统一,没有真实世界里的噪点和脏话。

问题也出在这里。

生成这些数据的源头模型(Teacher Model)本身就有缺陷。如果老师教错了,学生不仅会照单全收,还会因为缺乏真实世界的纠偏机制,把错误当成真理反复强化。

举个例子。假设基础模型混淆了某两个相似的法律条款,用它生成的合成法律问答数据里,这种混淆会被固化下来。当你用这批数据去微调一个新模型时,新模型学到的不是法律知识,而是“如何更像那个犯错的老师”。

合成数据无法创造新知识,它只能重组旧知识。如果旧知识里有毒,重组后的剂量可能更大。

很多人期待合成数据能根治模型幻觉,觉得只要数据量够大,概率上总能覆盖正确路径。这是一种误解。

真实的互联网数据虽然杂乱,但它包含了一种宝贵的“摩擦力”——不同来源的信息会互相冲突、互相验证。而高质量的合成数据往往过于平滑。模型在训练时接触不到这种冲突,一旦遇到训练分布之外的情况,它不会承认“我不知道”,而是会用极其流畅、 confident 的语气编造一个看似合理的答案。

合成数据能根治模型幻觉吗?别被“完美数据”骗了

这不是幻觉消失了,而是幻觉变得更难检测了。

我们曾在内部测试中发现,经过纯合成代码数据训练的模型,在编写常见函数时表现优异,但在处理边缘案例(Edge Cases)时,它会生成语法完美但逻辑完全跑偏的代码,且没有任何报错提示。这种“静默失败”比直接报错更可怕。

当然,我不是说合成数据没用。在冷启动阶段,或者特定垂直领域缺乏标注数据时,它是极佳的补充剂。关键在于“配比”和“过滤”。

技术没有银弹。试图用一种算法缺陷去弥补另一种算法缺陷,结果往往是制造出更精致的缺陷。对待合成数据,得像对待补品一样:适量有益,过量伤身,千万别把它当主食。

声明:未经同意禁止任何个人或组织复制、盗用、采集、发布本站点内容到其他媒体平台。