2025年8月11日,百川智能发布开源医疗增强大模型Baichuan-M2,在OpenAI开源两款主打医疗能力最强的大模型仅5天后,实现反超,在所有开源模型中医疗能力登顶世界第一。Baichuan-M2不仅在相关评测中成绩优异,还在部署成本、硬件适配、运算速度等方面表现出色,且验证了医疗数据对模型通用能力提升的价值。
Baichuan-M2性能卓越,开源模型中医疗能力登顶
8月11日,百川智能发布开源医疗增强大模型Baichuan-M2。OpenAI于8月6日开源两款大模型,主打部署成本超低和医疗能力最强,而Baichuan-M2仅在5天后发布,以32B的较小尺寸实现医疗能力反超。在OpenAI今年5月发布的权威且贴近真实临床场景的HealthBench医疗健康评测集上,Baichuan-M2得到60.1的高分,超越OpenAI最新开源模型gpt-oss120b(得分57.6),力压Qwen3-235B、Deepseek R1、Kimi K2等当前世界所有开源大模型 ,在所有开源模型中登顶世界第一。
满足医疗领域需求,部署成本与速度优势显著
针对医疗领域用户隐私考虑下的模型私有化部署需求,百川智能对Baichuan-M2进行了极致轻量化,量化后的模型精度接近无损,可以在RTX4090上单卡部署,相比DeepSeek-R1 H20双节点部署的方式,成本降低了57倍。同时,完成了针对国产主流芯片的开发和适配,让多数医疗机构利用现有硬件条件既可实现快速部署。此外,面向急诊、门诊等对于交互速度要求更高的场景,基于Eagle-3架构优化的Baichuan-M2 MTP版本在单用户场景下实现了74.9%的token速度跃升。
医疗数据助力通用能力提升,复杂问题处理比肩GPT-5
百川作为首个将医疗数据用作强化学习的中国团队,验证了高质量医疗数据对于模型通用能力的增长具有较高价值,M2模型在数学、指令遵循、写作等通用核心性能上不降反升,因此该模型也可应用于医疗以外的其他领域。在处理医疗复杂问题方面,Baichuan-M2能力比肩GPT-5。OpenAI从HealthBench整体数据中选出1000个特别困难的复杂问题作为Hard子集,用于验证模型多维度、全景化解决疑难复杂医学问题的能力。今年5月该评测集发布时,众多顶尖模型得分极低。GPT-5发布时是HealthBench Hard评测全球唯一超过32分的模型,而Baichuan-M2以34.7分成为全球第二款超过32分的模型,力压世界所有其他顶尖闭源大模型,这证明在多数医疗场景上,其问答质量已超越资深医生。
创新探索为模型进步奠定基础
百川技术团队在大型验证系统、端到端强化学习、AI患者模拟器、多类型医疗数据用于深度推理等4个方面的创新探索,是Baichuan-M2模型取得飞跃式进步的关键。他们构建大型验证系统,其中包含全面的医学验证系统,从多个维度评估模型输出并引导改正。在此基础上,采用多阶段强化学习策略,将复杂任务分解为分层训练阶段,逐步引导模型能力演变。
以上文章由 AI 总结生成