分享好友 资讯首页 频道列表

OpenAI内部实验性大语言模型模拟2025年IMO竞赛获金牌水平成绩

2025-07-20 08:36160

近日,OpenAI研究人员披露一则重磅消息:其内部一款实验性大语言模型在模拟2025年国际数学奥林匹克(IMO)竞赛中,取得了金牌水平的成绩。这一突破并非来自针对数学能力的定制模型,而是通用人工智能研究的成果,且GPT-5也即将发布,引发广泛关注。


实验性大模型获IMO金牌水平成绩

几个小时前,OpenAI研究人员透露,一款内部实验性大语言模型在模拟的2025年IMO竞赛中表现出色。IMO竞赛被视为衡量创造性数学推理能力的巅峰,其要求人类选手在9小时内(两场各4.5小时)完成6道原创证明题,平均单题耗时约100分钟,且需闭卷、纯自然语言推导、禁用计算工具与形式化验证器,答案还需专家评审数小时。在此严格复现的环境下,该模型解决了6道题中的5道(P1 - P5),证明过程由三位前IMO奖牌得主独立评审并达成共识,最终得分35/42,而2024年金牌分数线为32分。


大模型能力实现跨越

与以往AI基准测试相比,此次成就意义非凡。在推理时长上,AI模型从处理几秒或几分钟内可解决的问题,如GSM8K(平均单题推理时长约0.1分钟)、MATH(平均单题推理时长约1分钟),跃升至能应对需以小时为单位深度思考的IMO难题。任务性质也发生转变,过去数学基准大多要求输出标准答案,而IMO要求的是长达数页、逻辑严谨、使用自然语言书写的完整证明过程,这要求模型不仅要找到答案,更要构建无懈可击的论证体系。


通用方法论的突破

OpenAI三位核心研究员强调,成果关键在于背后的通用方法论。该模型并非为IMO量身定制,而是通用推理引擎。它具有通用性,可应用于数学之外领域;能处理“难以验证”的任务,突破传统强化学习范畴,因IMO证明评估更为主观;还能长时间、高效率“思考”,具备深度、持久思考的能力和效率;并且全程纯自然语言推理,不依赖外部工具,接近人类数学家思考方式。研究院Sheryl感叹,从GPT - 4o在AIME测试中12%的水平,到如今的IMO金牌,仅约15个月时间。


前沿研究与商业产品的差距

值得注意的是,这个取得IMO金牌水平成绩的模型是前沿实验品,并非GPT - 5,未来数月内同等级数学能力不会集成到公开发布产品中,揭示了前沿研究与商业产品间存在显著技术代差和发布时间差。不过,官方公布了该模型实际证明结果,可在GitHub(https://github.com/aw31/openai - imo - 2025 - proofs/)查看。同时,Alexander确认GPT - 5即将发布。当AI能力跨越“略高于人类专家”门槛,其角色将从辅助工具转变为潜在原创性研究伙伴。


以上文章由 AI 总结生成

反对 0
举报 0
收藏 0
打赏 0
评论 0
天津18岁男子无证驾驶,顶撞拖带他人后逃逸,已被刑拘
2025年7月19日,天津市公安局南开分局发布警情通报,18岁的杨某某于7月18日在南开区南马路无证驾驶,与他人发生冲突后,驾车顶撞

0评论2025-07-2021

上海48岁男子吃馒头猝死,意外险理赔起纠纷,法院调解后家属获赔半数保险金
2023年11月,上海48岁的潘先生在家中吃馒头时突然猝死,其家人事后申请意外险全额理赔遭拒,由此引发纠纷。近日,在上海市浦东新

0评论2025-07-2019

台风“韦帕”逼近香港,天文台将改发八号信号,各界积极应对
受今年第6号台风“韦帕”影响,香港天文台19日14时20分发出三号强风信号,并将于20日0时20分改发八号烈风或暴风信号。面对台风来

0评论2025-07-2018

美国对非移民签证申请者征收250美元“签证诚信费”,或影响2028年奥运会旅游吸引力
当地时间7月18日,美国宣布将对申请非移民签证的游客、留学生与商务人士征收250美元“签证诚信费”,此费用为特朗普签署的“大而

0评论2025-07-2022

OpenAI测试神秘新模型“o3-alpha”,早期测试表现远超同类模型
近日,OpenAI正在测试的神秘新模型“o3-alpha”引发广泛关注,其早期测试结果显示能力远超Sonnet、o3等同类模型,能轻松实现复杂

0评论2025-07-2021

澳大利亚总理阿尔巴尼斯结束访华,澳学者称健康稳定澳中关系符合两国利益
2025年7月12日至18日,澳大利亚总理阿尔巴尼斯完成对中国的正式访问。澳大利亚学者在接受中新社记者采访时指出,此次访问对推动

0评论2025-07-1915

2025年上半年巴西对中国稀土出口量增长两倍,分析称中国正多元化获取战略矿产
2025年上半年,巴西对中国稀土出口呈现迅猛增长态势,出口量较去年同期增长两倍,出口额达670万美元,而中国稀土进口量也攀升至

0评论2025-07-1920

小米雷军与比亚迪王传福会面参观工厂,双方深化合作引猜测
近日,网友爆料小米集团创始人雷军与比亚迪董事长兼总裁王传福会面,并一同参观小米汽车工厂,这一消息引发了外界对于两家企业是

0评论2025-07-1920

美国白宫AI主管称解禁H20芯片是为应对华为,阻止其全球竞争
近日,NVIDIA宣布H20 AI芯片将随着美国出口管制放宽重新进入中国市场。美国白宫AI主管大卫·萨克斯直言,解禁该芯片旨在应对华为

0评论2025-07-1820

7月17日中证港股通互联网指数及相关ETF收涨,百度、华为同日开源大模型
7月17日,中证港股通互联网指数收涨,成分股大麦娱乐、狮腾控股等个股跟涨,港股互联网ETF(159568)也随之收涨,且该基金近一年

0评论2025-07-1820