分享好友 资讯首页 频道列表

OpenAI新论文揭示GPT-5幻觉率降低原因并提出评估标准改进方案

2025-09-10 11:0240

近日,OpenAI发布新论文,深入剖析语言模型产生幻觉的原因,并以GPT-5为例指出当前评估体系存在的问题。论文提出调整评估标准的解决方案,旨在减少模型幻觉,提升回应的可信度,引发广泛关注。


OpenAI新论文剖析幻觉根源

OpenAI发布的《语言模型为何会产生幻觉?》一文指出,幻觉并非偶然,而是源于模型本身的结构性机制,根源在于评估体系。现行多数AI基准测试采用二元评分方式,答对得分,答错或说“不知道”都不得分,这使得模型为追求高分而倾向于猜测,导致幻觉滋生。正如OpenAI所说:“幻觉之所以持续存在,是因为大多数评估的打分方式。语言模型被优化为擅长应试,而在不确定时进行猜测会提高考试表现。”


GPT-5数据体现评估体系影响

OpenAI公布的模型基准测试结果显示,最新的推理模型GPT-5 Thinking Mini准确率为22%,略低于上一代o4-Mini模型的24%。然而,GPT-5的弃答率达到52%,错误率为26%;o4-Mini的弃答率仅为1%,但错误率却高达75%。这表明o4-Mini更频繁的猜测行为虽增加了正确回答的可能,但同时也大幅提高了错误率,而GPT-5通过更高的弃答率有效控制了错误率,体现了当前评估体系对模型行为的影响。


提出调整评估标准的解决方案

针对幻觉问题,OpenAI提出解决方案,即调整评估标准。研究人员认为,现有的主要评估方式必须进行调整,避免在模型不确定时惩罚其选择不作答。应更新广泛使用的基于准确率的评估,阻止模型盲目猜测。例如,可引入负分机制对错误答案扣分,给予弃权部分分数,奖励模型表达不确定性的行为,以此引导模型减少幻觉,给出更可靠的回应。


以上文章由 AI 总结生成

反对 0
举报 0
收藏 0
打赏 0
评论 0
女星许玮宁产后首露面,分享生子喜悦及新手妈妈心情
9月9日,女星许玮宁产后首度公开露面,在新舞台剧记者会上分享生子喜悦,畅谈孕期体验、产后身材恢复,还透露邱泽当爸后的变化,

0评论2025-09-104

92岁演员游本昌入住高端养老院,因父子关系留有遗憾
92岁的著名演员游本昌,因其经典的济公形象深入人心。如今,他和妻子选择入住高端养老院安享晚年,每月花销不菲。然而,看似惬意

0评论2025-09-103

日本国宝级女演员吉行和子因肺炎去世,享年90岁
当地时间9月8日,日本国宝级女演员吉行和子所属事务所“剧团 Theatre de Poche”发布讣告,吉行和子于9月2日凌晨因肺炎离世,享

0评论2025-09-104

WTT澳门冠军赛女单1/16决赛:迪亚兹3比2逆转波尔卡诺娃晋级
9月9日,WTT澳门冠军赛女单1/16决赛赛况激烈,迪亚兹历经五局苦战,以3-2逆转波尔卡诺娃成功晋级,她下一轮的对手将在王艺迪与关

0评论2025-09-103

电影《731》主演孙茜分享拍摄体验,影片引发网友对还原历史的讨论
长影电影《731》定档9月18日上映,主演孙茜在采访中谈及拍摄体会,称拍摄时不让自己愉快,还采用沉浸式拍摄。而影片的预告、海报

0评论2025-09-103

泡泡玛特遇二手市场跌价潮,新品发售未售先“破发”
近期,泡泡玛特深陷二手市场跌价漩涡,多款产品价格暴跌,新品发售也遭遇未售先“破发”的困境,市场热度大不如前,引发行业关注

0评论2025-09-104

具俊晔在大S墓碑刻情侣纹身文字,频繁前往墓前致草坪褪色
大S离世后,具俊晔对她的深情眷恋愈发凸显。近期,大S墓碑上惊现二人曾共有的情侣纹身文字,而具俊晔也几乎每日前往墓前,其情之

0评论2025-09-103

成毅、古力娜扎主演古装武侠剧《赴山海》定档9月11日播出
成毅、古力娜扎主演古装武侠剧《赴山海》定档9月11日播出基于 6 个来源9月11日,由成毅、古力娜扎主演的古装武侠剧《赴山海》将

0评论2025-09-103

国内首款eSIM手机苹果iPhone Air,仅中国联通提供eSIM支持
苹果公司推出的iPhone Air,成为国内首款纯eSIM手机。目前在中国大陆地区,仅有中国联通为iPhone Air(型号A3518)提供eSIM支持

0评论2025-09-104

《财富》发布2025年最受赞赏中国公司榜单,京东、华为等上榜
2025年9月9日,《财富》杂志发布了2025年最受赞赏的中国公司榜单。此次榜单从多维度衡量企业,要求上榜公司平衡股东利益、员工责

0评论2025-09-101