OpenAI日前宣称,在衡量AI模型健康主题回应准确性的“HealthBench Hard Hallucinations”测试中,GPT - 5(启用思考功能时)的幻觉率仅1.6%,远低于GPT - 4o的12.9%与GPT - 3的15.8%,显示出GPT - 5在回答健康相关问题上的卓越表现。
GPT - 5在健康问题回答测试中表现卓越
OpenAI表示,在衡量AI模型健康主题回应准确性的测试“HealthBench Hard Hallucinations”里,GPT - 5启用思考功能时,幻觉率仅为1.6%。相比之下,该公司之前的GPT - 4o和GPT - 3模型,幻觉率分别高达12.9%和15.8% ,这充分证明GPT - 5在回答健康相关问题方面表现更为出色。
GPT - 5其他方面的优势
除在健康问题回答上表现卓越外,GPT - 5还有诸多亮点。它是OpenAI首个“统一”人工智能模型,融合o系列模型推理能力与GPT系列快速响应优势,为下一代ChatGPT提供技术支持。在编程领域,GPT - 5展现前沿水平,在SWE - bench Verified测试中首次尝试得分达74.9% ,优于部分竞品。其在创意设计、写作等主观领域也表现出色,回应更自然且具“更好品味”。同时,GPT - 5更准确,幻觉现象大幅减少,在对ChatGPT提示词回应中,启用思考功能时幻觉率为4.8%,远低于前代。此外,它还更安全,欺骗率更低,能更好区分恶意与无害用户。
GPT - 5带来的用户体验升级
随着GPT - 5发布,ChatGPT迎来多项用户体验升级。用户可在设置中选择愤世嫉俗型、机器人型、倾听者型和书呆子型四种新人格,调整ChatGPT回应方式。ChatGPT Plus订阅用户比免费用户拥有更高GPT - 5使用限额,Pro订阅用户可无限制使用GPT - 5并访问增强版GPT - 5 Pro。采用OpenAI Team、Edu和企业版计划的机构将在下周获得GPT - 5作为默认模型。对于开发者,GPT - 5将以三种规格通过OpenAI的API开放,开发者还可控制回应详细程度。
以上文章由 AI 总结生成