免费发布消息

OpenAI新论文揭示GPT-5幻觉率降低原因并提出评估标准改进方案

   2025-09-10 70
核心提示:近日,OpenAI发布新论文,深入剖析语言模型产生幻觉的原因,并以GPT-5为例指出当前评估体系存在的问题。论文提出调整评估标准的

近日,OpenAI发布新论文,深入剖析语言模型产生幻觉的原因,并以GPT-5为例指出当前评估体系存在的问题。论文提出调整评估标准的解决方案,旨在减少模型幻觉,提升回应的可信度,引发广泛关注。


OpenAI新论文剖析幻觉根源

OpenAI发布的《语言模型为何会产生幻觉?》一文指出,幻觉并非偶然,而是源于模型本身的结构性机制,根源在于评估体系。现行多数AI基准测试采用二元评分方式,答对得分,答错或说“不知道”都不得分,这使得模型为追求高分而倾向于猜测,导致幻觉滋生。正如OpenAI所说:“幻觉之所以持续存在,是因为大多数评估的打分方式。语言模型被优化为擅长应试,而在不确定时进行猜测会提高考试表现。”


GPT-5数据体现评估体系影响

OpenAI公布的模型基准测试结果显示,最新的推理模型GPT-5 Thinking Mini准确率为22%,略低于上一代o4-Mini模型的24%。然而,GPT-5的弃答率达到52%,错误率为26%;o4-Mini的弃答率仅为1%,但错误率却高达75%。这表明o4-Mini更频繁的猜测行为虽增加了正确回答的可能,但同时也大幅提高了错误率,而GPT-5通过更高的弃答率有效控制了错误率,体现了当前评估体系对模型行为的影响。


提出调整评估标准的解决方案

针对幻觉问题,OpenAI提出解决方案,即调整评估标准。研究人员认为,现有的主要评估方式必须进行调整,避免在模型不确定时惩罚其选择不作答。应更新广泛使用的基于准确率的评估,阻止模型盲目猜测。例如,可引入负分机制对错误答案扣分,给予弃权部分分数,奖励模型表达不确定性的行为,以此引导模型减少幻觉,给出更可靠的回应。


以上文章由 AI 总结生成

 
反对 0举报 0 收藏 0 打赏 0评论 0
 
更多>同类资讯
推荐图文
推荐资讯
点击排行