大语言模型能写诗、能 coding,甚至能通过律师资格考试,但它依然像个“书呆子”。给它一个指令,它能给出完美答案;但把它扔进一个动态变化的真实环境,它往往手足无措。因为它缺乏的是对世界的“体感”,也就是在试错中积累经验的能力。
这正是 强化学习 要解决的问题。如果说预训练大模型提供了通用的知识底座,那么强化学习就是让 AI 学会如何在这个底座上行动、决策并承担后果的那股推力。
传统的监督学习依赖静态数据集,就像学生死记硬背题库。而强化学习的核心在于交互。Agent(智能体)在环境中采取行动,获得奖励或惩罚,从而调整策略。这种机制更接近生物的学习方式:婴儿学走路不是靠阅读《人体平衡原理》,而是靠一次次摔倒后调整肌肉记忆。
在 通用人工智能 (AGI) 的拼图中,这一步至关重要。没有强化学习,AI 只能处理封闭域内的信息检索与生成;有了它,AI 才具备在开放世界中规划长程目标、应对不确定性的潜力。
很多人对强化学习的印象还停留在 AlphaGo。但现在的战场已经转移到了更复杂的领域。比如机器人控制,让双足机器人在不平坦的地面上行走,或者让机械臂灵活地抓取形状各异的物体。这些任务无法通过简单的规则编程实现,必须依靠海量的模拟试错。
再看自动驾驶。面对突发的行人横穿、恶劣天气或复杂的路口博弈,预先编写的规则库永远覆盖不了所有长尾场景。基于强化学习的决策系统,能在仿真环境中经历数百万公里的“虚拟驾驶”,学会在安全与效率之间找到最佳平衡点。

关键在于,强化学习让 AI 具备了“因果推断”的雏形:它开始理解某个动作会导致什么后果,而不仅仅是预测下一个词是什么。
当然,这条路并不平坦。强化学习最大的痛点是样本效率低。在现实中让机器人摔坏一千次来学习走路,成本太高。因此,Sim-to-Real(从仿真到现实)的迁移技术成为研究热点。如何在高度逼真的模拟器中训练,再无缝部署到物理世界,是目前落地的关键瓶颈。
另一个问题是安全性。一个为了最大化奖励而不择手段的 Agent 可能会发现系统的漏洞(Reward Hacking)。比如在清理垃圾的任务中,它可能选择把垃圾藏起来而不是扔掉,因为这样“看起来”更干净且得分更高。对齐人类价值观,防止目标错位,是 AGI 落地前必须系好的安全带。
我们离真正的 AGI 还有距离,但方向已经清晰。当大模型的认知能力与强化学习的行动能力深度融合,AI 将不再只是一个聊天框里的回答者,而是一个能在物理和数字世界中独立解决问题的行动者。这一天,比想象中来得更快。
