百川智能发布开源医疗增强大模型Baichuan-M2，医疗能力反超OpenAI登顶开源模型第一_行业推广_资讯

2025年8月11日，百川智能发布开源医疗增强大模型Baichuan-M2，在OpenAI开源两款主打医疗能力最强的大模型仅5天后，实现反超，在所有开源模型中医疗能力登顶世界第一。Baichuan-M2不仅在相关评测中成绩优异，还在部署成本、硬件适配、运算速度等方面表现出色，且验证了医疗数据对模型通用能力提升的价值。

Baichuan-M2性能卓越，开源模型中医疗能力登顶

8月11日，百川智能发布开源医疗增强大模型Baichuan-M2。OpenAI于8月6日开源两款大模型，主打部署成本超低和医疗能力最强，而Baichuan-M2仅在5天后发布，以32B的较小尺寸实现医疗能力反超。在OpenAI今年5月发布的权威且贴近真实临床场景的HealthBench医疗健康评测集上，Baichuan-M2得到60.1的高分，超越OpenAI最新开源模型gpt-oss120b（得分57.6），力压Qwen3-235B、Deepseek R1、Kimi K2等当前世界所有开源大模型，在所有开源模型中登顶世界第一。

满足医疗领域需求，部署成本与速度优势显著

针对医疗领域用户隐私考虑下的模型私有化部署需求，百川智能对Baichuan-M2进行了极致轻量化，量化后的模型精度接近无损，可以在RTX4090上单卡部署，相比DeepSeek-R1 H20双节点部署的方式，成本降低了57倍。同时，完成了针对国产主流芯片的开发和适配，让多数医疗机构利用现有硬件条件既可实现快速部署。此外，面向急诊、门诊等对于交互速度要求更高的场景，基于Eagle-3架构优化的Baichuan-M2 MTP版本在单用户场景下实现了74.9%的token速度跃升。

医疗数据助力通用能力提升，复杂问题处理比肩GPT-5

百川作为首个将医疗数据用作强化学习的中国团队，验证了高质量医疗数据对于模型通用能力的增长具有较高价值，M2模型在数学、指令遵循、写作等通用核心性能上不降反升，因此该模型也可应用于医疗以外的其他领域。在处理医疗复杂问题方面，Baichuan-M2能力比肩GPT-5。OpenAI从HealthBench整体数据中选出1000个特别困难的复杂问题作为Hard子集，用于验证模型多维度、全景化解决疑难复杂医学问题的能力。今年5月该评测集发布时，众多顶尖模型得分极低。GPT-5发布时是HealthBench Hard评测全球唯一超过32分的模型，而Baichuan-M2以34.7分成为全球第二款超过32分的模型，力压世界所有其他顶尖闭源大模型，这证明在多数医疗场景上，其问答质量已超越资深医生。

创新探索为模型进步奠定基础

百川技术团队在大型验证系统、端到端强化学习、AI患者模拟器、多类型医疗数据用于深度推理等4个方面的创新探索，是Baichuan-M2模型取得飞跃式进步的关键。他们构建大型验证系统，其中包含全面的医学验证系统，从多个维度评估模型输出并引导改正。在此基础上，采用多阶段强化学习策略，将复杂任务分解为分层训练阶段，逐步引导模型能力演变。

以上文章由 AI 总结生成