很多人第一次听到 ChatGPT 背后的技术原理时,直觉反应是:“哦,就是那种读遍互联网、自己悟出道理的无监督学习嘛。”

这个理解对了一半,但恰恰漏掉了让它“像人”的关键另一半。

如果只靠海量文本的无预训练,模型确实能学会语法、事实和逻辑关联。但它学不会的是:如何得体地回答一个问题,如何拒绝有害指令,以及如何用人类喜欢的语气聊天。

这中间的巨大鸿沟,是靠监督学习填平的。

第一阶段,也就是大家熟知的预训练(Pre-training),确实是基于无监督学习

这时候的模型像个被扔进图书馆的孩子。它读了维基百科、Reddit 帖子、新闻档案和代码库。它的任务只有一个:预测下一个字。

这种学习方式不需要人工标注。数据本身就是标签。通过这种方式,模型建立了庞大的世界知识库。但它此时是个“话痨”,你问它“怎么造炸弹”,它可能会兴致勃勃地列出步骤,因为它在网络上见过类似的文本模式。

它懂知识,但不懂规矩。

为了让 ChatGPT 变得有用且安全,OpenAI 引入了监督微调(Supervised Fine-Tuning, SFT)。

这一步,彻底改变了游戏规则。

人类标注员登场了。他们编写成千上万个高质量的问答对。比如:

模型不再只是预测下一个字,而是学习“在这个场景下,什么样的回答才是好的”。这是一种典型的监督学习过程。输入是问题,输出是理想答案,损失函数计算两者差距,然后反向传播调整参数。

ChatGPT 真的只靠无监督学习?拆解它与监督学习的真实关系

没有这一步,ChatGPT 只是一个会续写的搜索引擎,而不是一个助手。

即便经过 SFT,模型还是可能偶尔“犯浑”或者啰嗦。于是有了第三阶段:基于人类反馈的强化学习(RLHF)。

虽然 RLHF 属于强化学习范畴,但它依然依赖大量的人工偏好数据。标注员会对多个回答进行排序:“A 比 B 好,因为 B 太冗长。”

这个过程本质上还是在利用人类的判断作为“监督信号”,引导模型向更符合人类价值观的方向优化。

所以,别被“无监督”的名头骗了。ChatGPT 的智能底座是无监督学习,但它的“情商”和“可用性”完全来自高强度的监督学习与人工反馈。

现在的 AI 竞赛,拼的早已不是谁读的书更多,而是谁拥有更高质量、更精细的人工标注数据。

纯粹的数据堆砌时代已经过去了。接下来,是拼“家教”严不严的时代。

声明:未经同意禁止任何个人或组织复制、盗用、采集、发布本站点内容到其他媒体平台。