大模型最让人头疼的不是“不知道”,而是“瞎编”。

你问它一个冷门的历史年份,它可能自信满满地给出一个错误答案。这种现象就是典型的模型幻觉。传统的解决思路是靠更高质量的训练数据,或者在推理时加强检索增强生成(RAG)。但这还不够。

我们忽略了一个关键信号:用户是怎么跟这个错误答案互动的?

大多数团队只盯着模型的输出文本做评估。比如用 BLEU 或 ROUGE 分数,或者人工抽检准确率。这些是静态指标。

但真实场景里,用户的反应才是金标准。

如果用户看到回答后,立刻关闭了页面,或者快速点击了“重新生成”,甚至直接复制了问题去搜索引擎复查,这些行为都在大声告诉系统:刚才的回答不可信。

这就是行为数据的价值。它比单纯的点赞或点踩更细腻,也更难伪造。

举个例子。在一个代码辅助场景中,如果用户复制了模型生成的代码,但在接下来的三分钟内不断修改报错行,最后完全重写了逻辑。这说明模型给出的代码虽然语法正确,但逻辑根本跑不通。这种“复制后废弃”的行为轨迹,比一个简单的“差评”标签包含的信息量大得多。

收集数据只是第一步,难点在于怎么把这些非结构化的行为转化成模型能理解的反馈信号。

不需要搞复杂的强化学习全流程,可以从简单的加权开始:

拿到这些信号后,不要直接用来微调主模型,风险太大。建议先建立一个“负面样本库”。

用行为数据校准模型幻觉:让 AI 回答更靠谱的实操思路

将那些引发强烈负面行为数据(如快速重试、零保留率)的问答对提取出来,交给人工或更高阶的模型进行复核。确认是幻觉后,将其加入负向约束集,或者用于训练一个轻量级的“判别器”模型。

很多项目死在数据孤岛。日志服务器存了一堆行为数据,但训练团队拿不到;训练团队更新了模型,但线上 A/B 测试的效果反馈不回传。

打通这个闭环,才能让校准真正生效。

不必追求全量实时反馈。哪怕每周一次,把过去七天的高置信度负面行为数据清洗出来,用于下一轮的指令微调(SFT)或作为 RAG 检索排序的降权因子,效果都会立竿见影。

AI 不会突然变得完美,但它可以通过观察用户的“用脚投票”,慢慢学会少说胡话。这才是让回答变靠谱的最朴实路径。

声明:未经同意禁止任何个人或组织复制、盗用、采集、发布本站点内容到其他媒体平台。