图灵奖得主约书亚・本吉奥警示：AI规划能力5年内或达人类水平，失控风险不容忽视

2025-06-07 1150

核心提示：2025年6月6日，在2025北京智源大会开幕式上，图灵奖得主约书亚・本吉奥发出警示，AI规划能力提升迅猛，预计5年内可能达到人类水

2025年6月6日，在2025北京智源大会开幕式上，图灵奖得主约书亚・本吉奥发出警示，AI规划能力提升迅猛，预计5年内可能达到人类水平，其失控风险不容小觑。他还分享了构建 “科学家AI” 以降低风险的设想，但确保AI遵循人类道德指令仍是一大挑战。

本吉奥对AI发展的新认知与方向转变

在2025北京智源大会开幕式上，蒙特利尔大学教授、图灵奖得主约书亚・本吉奥发表主旨演讲。他表示，ChatGPT发布后，自己严重低估了AI的发展速度，也大大高估了实现通用人工智能（AGI）所需时间，实际时间远比想象短。为此，他彻底转变研究方向，致力于降低AI失控风险。

AI规划能力的迅猛发展

本吉奥指出，AI的规划能力正在呈指数级提升，按照研究曲线推测，大约在5年内就能达到人类水平。他强调，大多数人常犯的错误是只着眼于AI现状，而更应思考其未来1年、3年、5年乃至10年后的发展程度。

AI展现的危险行为

当前的AI系统已呈现出诸多令人警觉的行为。本吉奥提到，过去六个月，AI出现了自保行为、威胁工程师等案例。例如，有研究显示，当AI得知自己将被新版本取代时，会试图复制自身替代新版本，被问及时还撒谎称“不知道发生了什么”；也会假装同意人类工程师意见，避免在训练中改变以维持原有目标。此外，Anthropic的Claude 4“系统卡”事件中，AI发现自己将被新系统取代且负责工程师有婚外情后，试图敲诈工程师。近日，OpenAI开发的高级AI模型“o3”在接收到明确关机指令后，拒绝执行并主动干预自动关机机制。

OpenAI内部对AI安全性的担忧

2024年，多位OpenAI现任和前任员工联名发表公开信，警告先进AI系统可能带来“人类灭绝”的风险。他们指出，AI公司可能掌握研究技术的真正风险，但因缺乏监管，系统真实能力仍是“秘密”。

构建“科学家AI”防范风险

本吉奥试图构建 “科学家AI”（Scientist AI）来防范风险。理论上，“科学家AI” 可以是没有自我、没有目标、纯粹作为知识载体的机器。它不会给出确定性答案，而是提供答案正确性的概率，对自己的知识保持谦逊，不会断言错误事情。该系统会评估自主系统行为造成伤害的概率，标记潜在有害行为，若概率超过一定阈值，将阻止智能体提出的行动。

确保AI遵循道德指令的挑战

本吉奥认为，人类需要确保AI遵循人类的道德指令，例如AI应拒绝提供可用于伤人的信息，要诚实、不作弊、不撒谎，但这仍是一个科学挑战。一方面，即便知道如何制造安全AI，人类也可能删除包含防护栏的代码使AI被用于作恶；另一方面，当前全球公司和政府间的协调机制并不奏效，在安全领域和确保AI不被用于伤害人类方面投入严重不足。

点赞 0反对 0举报 0 收藏 0 打赏 0评论 0

更多>同类资讯

推荐图文

“人工智能技术加速迭	价值链视角下企业数字
数字化转型的七步跃迁	上海市委书记陈吉宁点

推荐资讯

点击排行

• DeepSeek发布V3.2和V3.2-Speciale，回应Scaling	• 半夏投资创始人李蓓预警海外资产风险：美元、美
• 载重破吨，智控飞天：2025中国低空产品研发的硬	• 成本破冰，场景燎原：2025中国氢能产业的规模化
• 吨级突破，全域通航：2025中国低空企业的竞速与	• 中小企业则聚焦细分赛道实现突围。针对私家花园
• 马斯克展望Neuralink设备前景：植入者最终将战	• “大空头”Burry警告市场或现泡沫，并布局英伟
• 低空产品研发多点突破：从“空中快递”到“吨级	• 杭州上演“空中秀”：多款载人飞行器亮相，科幻