OpenAI新论文揭示GPT-5幻觉率降低原因并提出评估标准改进方案

2025-09-10 250

核心提示：近日，OpenAI发布新论文，深入剖析语言模型产生幻觉的原因，并以GPT-5为例指出当前评估体系存在的问题。论文提出调整评估标准的

近日，OpenAI发布新论文，深入剖析语言模型产生幻觉的原因，并以GPT-5为例指出当前评估体系存在的问题。论文提出调整评估标准的解决方案，旨在减少模型幻觉，提升回应的可信度，引发广泛关注。

OpenAI新论文剖析幻觉根源

OpenAI发布的《语言模型为何会产生幻觉？》一文指出，幻觉并非偶然，而是源于模型本身的结构性机制，根源在于评估体系。现行多数AI基准测试采用二元评分方式，答对得分，答错或说“不知道”都不得分，这使得模型为追求高分而倾向于猜测，导致幻觉滋生。正如OpenAI所说：“幻觉之所以持续存在，是因为大多数评估的打分方式。语言模型被优化为擅长应试，而在不确定时进行猜测会提高考试表现。”

GPT-5数据体现评估体系影响

OpenAI公布的模型基准测试结果显示，最新的推理模型GPT-5 Thinking Mini准确率为22%，略低于上一代o4-Mini模型的24%。然而，GPT-5的弃答率达到52%，错误率为26%；o4-Mini的弃答率仅为1%，但错误率却高达75%。这表明o4-Mini更频繁的猜测行为虽增加了正确回答的可能，但同时也大幅提高了错误率，而GPT-5通过更高的弃答率有效控制了错误率，体现了当前评估体系对模型行为的影响。

提出调整评估标准的解决方案

针对幻觉问题，OpenAI提出解决方案，即调整评估标准。研究人员认为，现有的主要评估方式必须进行调整，避免在模型不确定时惩罚其选择不作答。应更新广泛使用的基于准确率的评估，阻止模型盲目猜测。例如，可引入负分机制对错误答案扣分，给予弃权部分分数，奖励模型表达不确定性的行为，以此引导模型减少幻觉，给出更可靠的回应。

以上文章由 AI 总结生成

点赞 0反对 0举报 0 收藏 0 打赏 0评论 0

更多>同类资讯

推荐图文

国家发展和改革委员会	中国“五年规划”制度
当机器人成为2.97亿老	“链联通”时代：中国

推荐资讯

点击排行

• 日媒曝前Hey！ Say！ JUMP成员中岛裕翔与女演员	• 前纳斯卡传奇赛车手格雷格·比弗尔飞机坠毁，一
• 2025年10月美债前两大海外持有国持仓动向分化，	• 法国麻醉师投毒致30名患者受害、12人死亡，被判
• 日本检方建议判处安倍遇刺案被告山上彻也无期徒	• 日本京都一幼儿园133名儿童误食塑料装饰品，3人
• 美国11月CPI降至2.7%，市场聚焦美联储降息动向	• 美文件显示：上世纪70年代驻日美军参与针对中苏
• 美国总统特朗普认定委内瑞拉现政府为“外国恐怖	• 柬泰边境冲突致柬平民17死77伤，超43万民众逃离