OpenAI内部实验性大语言模型模拟2025年IMO竞赛获金牌水平成绩_新闻资讯_资讯

近日，OpenAI研究人员披露一则重磅消息：其内部一款实验性大语言模型在模拟2025年国际数学奥林匹克（IMO）竞赛中，取得了金牌水平的成绩。这一突破并非来自针对数学能力的定制模型，而是通用人工智能研究的成果，且GPT-5也即将发布，引发广泛关注。

实验性大模型获IMO金牌水平成绩

几个小时前，OpenAI研究人员透露，一款内部实验性大语言模型在模拟的2025年IMO竞赛中表现出色。IMO竞赛被视为衡量创造性数学推理能力的巅峰，其要求人类选手在9小时内（两场各4.5小时）完成6道原创证明题，平均单题耗时约100分钟，且需闭卷、纯自然语言推导、禁用计算工具与形式化验证器，答案还需专家评审数小时。在此严格复现的环境下，该模型解决了6道题中的5道（P1 - P5），证明过程由三位前IMO奖牌得主独立评审并达成共识，最终得分35/42，而2024年金牌分数线为32分。

大模型能力实现跨越

与以往AI基准测试相比，此次成就意义非凡。在推理时长上，AI模型从处理几秒或几分钟内可解决的问题，如GSM8K（平均单题推理时长约0.1分钟）、MATH（平均单题推理时长约1分钟），跃升至能应对需以小时为单位深度思考的IMO难题。任务性质也发生转变，过去数学基准大多要求输出标准答案，而IMO要求的是长达数页、逻辑严谨、使用自然语言书写的完整证明过程，这要求模型不仅要找到答案，更要构建无懈可击的论证体系。

通用方法论的突破

OpenAI三位核心研究员强调，成果关键在于背后的通用方法论。该模型并非为IMO量身定制，而是通用推理引擎。它具有通用性，可应用于数学之外领域；能处理“难以验证”的任务，突破传统强化学习范畴，因IMO证明评估更为主观；还能长时间、高效率“思考”，具备深度、持久思考的能力和效率；并且全程纯自然语言推理，不依赖外部工具，接近人类数学家思考方式。研究院Sheryl感叹，从GPT - 4o在AIME测试中12%的水平，到如今的IMO金牌，仅约15个月时间。

前沿研究与商业产品的差距

值得注意的是，这个取得IMO金牌水平成绩的模型是前沿实验品，并非GPT - 5，未来数月内同等级数学能力不会集成到公开发布产品中，揭示了前沿研究与商业产品间存在显著技术代差和发布时间差。不过，官方公布了该模型实际证明结果，可在GitHub（https：//github.com/aw31/openai - imo - 2025 - proofs/）查看。同时，Alexander确认GPT - 5即将发布。当AI能力跨越“略高于人类专家”门槛，其角色将从辅助工具转变为潜在原创性研究伙伴。

以上文章由 AI 总结生成