你问它“林黛玉倒拔垂杨柳”的典故出处,它可能真给你编出一段《红楼梦》后四十回的佚文,语气笃定,引经据典。这种让人哭笑不得的现象,就是典型的模型幻觉。
别指望 AI 像字典一样只吐露真理。在它的逻辑里,没有“真假”,只有“概率”。
要理解为什么会胡说八道,得先看清神经网络到底在干什么。它不是在数据库里翻找答案,而是在做文字接龙。
基于海量文本训练,它学会了词与词之间的关联。当它预测下一个字时,选的是统计概率最高的那个,而不是事实最准确的那个。如果训练数据里“林黛玉”常和“葬花”、“哭泣”一起出现,而“鲁智深”常和“拔树”挂钩,模型一旦混淆了上下文权重,就可能把这两个意象强行拼接。
它不知道自己在撒谎。对它而言,生成的句子通顺、符合语法结构,任务就完成了。
另一个成因是数据本身的脏乱。互联网上充斥着谣言、段子、错误百科。神经网络照单全收,它分不清哪条是权威新闻,哪条是论坛灌水。
更麻烦的是,大模型往往被训练得“乐于助人”。面对一个它根本不知道答案的问题,直接回答“我不知道”在早期训练中可能被视为低质量输出。于是,它倾向于根据碎片信息拼凑一个看似合理的答案。这种过度自信,让幻觉更具迷惑性。

比如你问某个冷门公司的CEO是谁,如果训练数据截止于两年前,而该公司半年前刚换帅,模型很可能还在念叨旧名字,并且坚称这是最新信息。
完全消除幻觉目前还做不到,但可以通过工程手段大幅降低风险。
记住,当前的大模型是优秀的语言模仿者,却不是可靠的事实记录者。
使用它们时,保持一点怀疑主义,不是不信任技术,而是对常识的基本尊重。下次看到它言之凿凿地引用不存在的论文标题时,笑笑就好,然后去查证源头。
声明:未经同意禁止任何个人或组织复制、盗用、采集、发布本站点内容到其他媒体平台。
