很多人看到 AI 写诗、写代码,第一反应是“它怎么这么懂”。其实,这种“懂”并非来自灵光一闪,而是源于海量数据的暴力堆叠与模式提取。我们常说的预训练模型,本质上是一个被大数据反复锤炼过的统计机器。
别指望模型像人一样“思考”。它没有意识,也不懂悲欢离合。它的核心逻辑简单得有些枯燥:预测下一个字。
当你输入“床前明月”,模型并不是在回忆李白的诗句,而是在万亿级的文本库里计算,“光”字出现的概率最高,“霜”字次之。因为它读过无数遍这首诗,也读过无数篇类似的古诗赏析。
这种能力看似笨拙,但当数据量达到天文数字级别时,量变引发了质变。它记住了语言的韵律、代码的规范、甚至人类对话中的潜台词。
真正的聪明,体现在处理未见过的任务上。这就是所谓的“泛化能力”。
举个例子。模型从未专门学习过如何给一家新开的咖啡店写小红书文案。但它读过成千上万篇探店笔记,知道这类文章通常包含:环境描写、口味评价、拍照建议以及特定的语气词(如“绝绝子”、“打卡”)。
于是,它能迅速组合这些元素,生成一篇像模像样的文案。这不是创意,这是高级的模仿与重组。
模型并不创造知识,它只是将已有的知识以新的方式连接起来。

既然靠喂数据,那喂什么就很重要。早期的模型经常胡言乱语,因为互联网上充斥着噪音、谣言和低质内容。
现在的进步,更多得益于数据清洗技术的提升。工程师们剔除重复内容、过滤有害信息、标注高质量指令。这就好比给一个天才儿童请了最好的家教,而不是让他在菜市场听三年闲话。
如果你发现某个模型特别擅长写公文,大概率是因为它的训练集里包含了大量政府报告或企业文档。这种偏向性是内嵌在基因里的,很难通过简单的提示词完全消除。
使用预训练模型时,最危险的不是它太笨,而是它太像人。它会用自信的语气说出完全错误的事实,这种现象被称为“幻觉”。
不要把它当作真理的来源,而要把它当作一个博学但偶尔会喝醉的助手。让它提供灵感、起草初稿、检查语法,但最终的判断权必须留在人手里。
毕竟,它不知道什么是真实,只知道什么是常见。
