01:07:09
在最新访谈中,图灵奖得主、强化学习先驱Richard Sutton提出颠覆性观点:基于大语言模型(LLM)的AI发展路径存在根本性缺陷。他认为真正的智能必须建立在对世界的持续探索上,而非对人类行为的简单模仿。
LLM的核心机制是预测下一个token,这种基于人类语料库的训练方式本质上是被动的模仿学习。真正的智能需要主动建立世界模型(World Model),通过行动获得反馈来理解物理世界的因果关系。
传统强化学习(RL)通过TD-error(时间差分误差)不断验证预测与现实的差异,而LLM的输出无法通过物理世界的真实反馈进行校准。这种“纸上谈兵”式的学习导致:
所有动物(包括人类)的学习都基于试错机制。婴儿通过挥动四肢感知物理规律,松鼠通过觅食失败调整策略。这种持续的环境交互构成了智能进化的底层逻辑。
AlphaZero的成功证明,通过构建价值网络(Value Network)和策略网络(Policy Network)的协同机制,智能体能将长期目标分解为可验证的阶段性预测,实现跨越时间维度的决策能力。
心理学研究显示,人类文化传承中看似"模仿"的行为,本质是目标导向的主动学习。爱斯基摩人学习捕猎海豹时,表面模仿动作的背后是对环境反馈(如猎物反应、工具效果)的系统观测。
从TD-Gammon到AlphaZero,强化学习展现出强大的通用性:
1992年 | TD-Gammon通过自我对弈掌握双陆棋 |
2017年 | AlphaZero 4小时达到围棋超人类水平 |
Sutton描绘了未来智能系统的关键特征:
分布式学习网络
通过多智能体协同探索,突破单一个体的经验局限
动态价值体系
构建可解释的奖励机制,平衡短期收益与长期目标
进化式架构
实现网络结构的自主优化,突破人工设计的性能瓶颈