分享好友资讯首页频道列表

OpenAI新论文揭示GPT-5幻觉率降低原因并提出评估标准改进方案

2025-09-10 11:0240

近日，OpenAI发布新论文，深入剖析语言模型产生幻觉的原因，并以GPT-5为例指出当前评估体系存在的问题。论文提出调整评估标准的解决方案，旨在减少模型幻觉，提升回应的可信度，引发广泛关注。

OpenAI新论文剖析幻觉根源

OpenAI发布的《语言模型为何会产生幻觉？》一文指出，幻觉并非偶然，而是源于模型本身的结构性机制，根源在于评估体系。现行多数AI基准测试采用二元评分方式，答对得分，答错或说“不知道”都不得分，这使得模型为追求高分而倾向于猜测，导致幻觉滋生。正如OpenAI所说：“幻觉之所以持续存在，是因为大多数评估的打分方式。语言模型被优化为擅长应试，而在不确定时进行猜测会提高考试表现。”

GPT-5数据体现评估体系影响

OpenAI公布的模型基准测试结果显示，最新的推理模型GPT-5 Thinking Mini准确率为22%，略低于上一代o4-Mini模型的24%。然而，GPT-5的弃答率达到52%，错误率为26%；o4-Mini的弃答率仅为1%，但错误率却高达75%。这表明o4-Mini更频繁的猜测行为虽增加了正确回答的可能，但同时也大幅提高了错误率，而GPT-5通过更高的弃答率有效控制了错误率，体现了当前评估体系对模型行为的影响。

提出调整评估标准的解决方案

针对幻觉问题，OpenAI提出解决方案，即调整评估标准。研究人员认为，现有的主要评估方式必须进行调整，避免在模型不确定时惩罚其选择不作答。应更新广泛使用的基于准确率的评估，阻止模型盲目猜测。例如，可引入负分机制对错误答案扣分，给予弃权部分分数，奖励模型表达不确定性的行为，以此引导模型减少幻觉，给出更可靠的回应。

以上文章由 AI 总结生成

点赞 0

反对 0

举报 0

收藏 0

打赏 0

评论 0

女星许玮宁产后首露面，分享生子喜悦及新手妈妈心情

9月9日，女星许玮宁产后首度公开露面，在新舞台剧记者会上分享生子喜悦，畅谈孕期体验、产后身材恢复，还透露邱泽当爸后的变化，

0评论2025-09-104

92岁演员游本昌入住高端养老院，因父子关系留有遗憾

92岁的著名演员游本昌，因其经典的济公形象深入人心。如今，他和妻子选择入住高端养老院安享晚年，每月花销不菲。然而，看似惬意

0评论2025-09-103

日本国宝级女演员吉行和子因肺炎去世，享年90岁

当地时间9月8日，日本国宝级女演员吉行和子所属事务所“剧团 Theatre de Poche”发布讣告，吉行和子于9月2日凌晨因肺炎离世，享

0评论2025-09-104

WTT澳门冠军赛女单1/16决赛：迪亚兹3比2逆转波尔卡诺娃晋级

9月9日，WTT澳门冠军赛女单1/16决赛赛况激烈，迪亚兹历经五局苦战，以3-2逆转波尔卡诺娃成功晋级，她下一轮的对手将在王艺迪与关

0评论2025-09-103

电影《731》主演孙茜分享拍摄体验，影片引发网友对还原历史的讨论

长影电影《731》定档9月18日上映，主演孙茜在采访中谈及拍摄体会，称拍摄时不让自己愉快，还采用沉浸式拍摄。而影片的预告、海报

0评论2025-09-103

泡泡玛特遇二手市场跌价潮，新品发售未售先“破发”

近期，泡泡玛特深陷二手市场跌价漩涡，多款产品价格暴跌，新品发售也遭遇未售先“破发”的困境，市场热度大不如前，引发行业关注

0评论2025-09-104

具俊晔在大S墓碑刻情侣纹身文字，频繁前往墓前致草坪褪色

大S离世后，具俊晔对她的深情眷恋愈发凸显。近期，大S墓碑上惊现二人曾共有的情侣纹身文字，而具俊晔也几乎每日前往墓前，其情之

0评论2025-09-103

成毅、古力娜扎主演古装武侠剧《赴山海》定档9月11日播出

成毅、古力娜扎主演古装武侠剧《赴山海》定档9月11日播出基于 6 个来源9月11日，由成毅、古力娜扎主演的古装武侠剧《赴山海》将

0评论2025-09-103

国内首款eSIM手机苹果iPhone Air，仅中国联通提供eSIM支持

苹果公司推出的iPhone Air，成为国内首款纯eSIM手机。目前在中国大陆地区，仅有中国联通为iPhone Air（型号A3518）提供eSIM支持

0评论2025-09-104

《财富》发布2025年最受赞赏中国公司榜单，京东、华为等上榜

2025年9月9日，《财富》杂志发布了2025年最受赞赏的中国公司榜单。此次榜单从多维度衡量企业，要求上榜公司平衡股东利益、员工责

0评论2025-09-101