近日,OpenAI研究人员披露一则重磅消息:其内部一款实验性大语言模型在模拟2025年国际数学奥林匹克(IMO)竞赛中,取得了金牌水平的成绩。这一突破并非来自针对数学能力的定制模型,而是通用人工智能研究的成果,且GPT-5也即将发布,引发广泛关注。
实验性大模型获IMO金牌水平成绩
几个小时前,OpenAI研究人员透露,一款内部实验性大语言模型在模拟的2025年IMO竞赛中表现出色。IMO竞赛被视为衡量创造性数学推理能力的巅峰,其要求人类选手在9小时内(两场各4.5小时)完成6道原创证明题,平均单题耗时约100分钟,且需闭卷、纯自然语言推导、禁用计算工具与形式化验证器,答案还需专家评审数小时。在此严格复现的环境下,该模型解决了6道题中的5道(P1 - P5),证明过程由三位前IMO奖牌得主独立评审并达成共识,最终得分35/42,而2024年金牌分数线为32分。
大模型能力实现跨越
与以往AI基准测试相比,此次成就意义非凡。在推理时长上,AI模型从处理几秒或几分钟内可解决的问题,如GSM8K(平均单题推理时长约0.1分钟)、MATH(平均单题推理时长约1分钟),跃升至能应对需以小时为单位深度思考的IMO难题。任务性质也发生转变,过去数学基准大多要求输出标准答案,而IMO要求的是长达数页、逻辑严谨、使用自然语言书写的完整证明过程,这要求模型不仅要找到答案,更要构建无懈可击的论证体系。
通用方法论的突破
OpenAI三位核心研究员强调,成果关键在于背后的通用方法论。该模型并非为IMO量身定制,而是通用推理引擎。它具有通用性,可应用于数学之外领域;能处理“难以验证”的任务,突破传统强化学习范畴,因IMO证明评估更为主观;还能长时间、高效率“思考”,具备深度、持久思考的能力和效率;并且全程纯自然语言推理,不依赖外部工具,接近人类数学家思考方式。研究院Sheryl感叹,从GPT - 4o在AIME测试中12%的水平,到如今的IMO金牌,仅约15个月时间。
前沿研究与商业产品的差距
值得注意的是,这个取得IMO金牌水平成绩的模型是前沿实验品,并非GPT - 5,未来数月内同等级数学能力不会集成到公开发布产品中,揭示了前沿研究与商业产品间存在显著技术代差和发布时间差。不过,官方公布了该模型实际证明结果,可在GitHub(https://github.com/aw31/openai - imo - 2025 - proofs/)查看。同时,Alexander确认GPT - 5即将发布。当AI能力跨越“略高于人类专家”门槛,其角色将从辅助工具转变为潜在原创性研究伙伴。
以上文章由 AI 总结生成