近日,DeepMind科学家Jon Richens在ICML 2025上发表的论文引发关注,该论文指出若要实现AGI,不存在无模型的捷径,智能体就是世界模型。这一结论与2023年Ilya的预言不谋而合,在业界也得到部分人士及相关研究的印证,同时论文从理论推导、实验设置等方面对智能体与世界模型的关系展开了深入探讨。
论文核心观点:智能体即世界模型,实现AGI无无模型捷径
Jon Richens在ICML 2025上发表的论文指出,任何能够泛化到多步目标导向任务的智能体,必然已经学习了其环境的预测模型。这个模型可以从智能体的策略中提取出来,而要提升智能体的性能,或让其完成更复杂的目标任务,就必须学习更精确的世界模型。也就是说,如果要实现AGI,不存在无模型的捷径。
业界反响:观点获认同,研究相印证
爱丁堡大学博士生Shangmin Guo表示完全同意该结论,且他们也一直在有意让训练策略来进行世界建模。同时,他们刚发布的文章发现可将策略和世界模型统一到一个LLM中,无需外部动态模型。另外,一篇已投稿RLC 2025的文章观点也与这项研究相互印证。此外,该研究与2023年Ilya提出的存在一条支配所有智能体的基本法则的说法不谋而合,还有人提出图是世界模型很好的抽象形式。
无模型捷径探讨:智能体需学习世界模型
世界模型是人类目标导向的基础,但在混乱开放世界中难学习。如今存在通用的无模型智能体,如Gato、PaLM - E、Pi - 0等,它们究竟是学习了隐式世界模型,还是找到新的泛化方法?经探究,研究者发现任何能泛化到广泛简单目标导向任务的智能体,必然已学会模拟环境的预测模型,且能从智能体中恢复。在足够广泛的简单目标上,只要以目标为条件的策略满足一定后悔值上界,就能从该策略中恢复出对环境转移函数的有界误差近似。总之,为实现更低后悔值或完成更复杂目标,智能体必须学习更精确世界模型,根本不存在“无模型的捷径”。
智能体世界知识探寻:推导算法补全关系
为探寻智能体中蕴含的世界知识,研究者推导出一些算法,能在已知智能体策略和目标的情况下恢复其世界模型。这些算法补全了规划和逆强化学习的三位一体关系:规划是世界模型 + 目标→策略;逆强化学习是世界模型 + 策略→目标;研究者提出的是策略 + 目标→世界模型。在这个过程中,智能体体现出惊人的涌现能力,简单的目标导向性也能催生出多种能力。同时,任务泛化并不需要对环境具备太多因果知识,存在针对智能体性与智能体能力的因果层级体系。
实验设置:定义环境、目标及智能体
实验假设环境是可控马尔可夫过程,即无指定奖励函数或折扣因子的马尔可夫决策过程。研究者定义一类简单且直观的目标,可通过顺序或并行方式组合构造复合目标。研究聚焦于目标条件智能体,其策略是将历史和目标映射为动作。为简化分析,假设环境状态对智能体完全可见,智能体遵循确定性策略,同时定义了最优目标条件智能体和有界智能体。
智能体与世界模型等价性证明:推导算法及分析误差
研究人员证明了条件策略与世界模型的“等价性”,即环境转移函数的近似仅由智能体策略决定且有有限误差,学习目标条件策略在信息上等同于学习准确世界模型。研究者给出算法1和算法2,算法1能从有目标条件的有限智能体恢复有界误差世界模型,是通用且无监督的。从定理1恢复的世界模型准确性随智能体接近最优和/或能实现的顺序目标深度增加而提高,误差界限表明为实现长时间跨度目标,智能体需学会高度准确世界模型,且误差与转移概率有关。图3显示随着智能体泛化能力提升,恢复的世界模型误差显著下降,验证了理论推导中关于误差收敛性的预期。
短视智能体:无需学习世界模型
定理1给出的世界模型只能从最大目标深度为1的智能体提取,为探究只优化即时结果的短视智能体是否需学习世界模型,研究者推导出针对短视智能体的结果。定理2表明不存在过程能从短视智能体策略中确定转移概率,即对于短视智能体而言,学习世界模型并不是必要的,只有当智能体追求包含多个子目标、需多步完成的任务时,世界模型才是必需的。