7月9日,昆仑万维重磅开源迄今最强多模态推理模型Skywork-R1V 3.0,参数规模38B。该模型在多个多模态推理基准测试中取得开源最佳性能,在MMMU测试中逼近人类专家水平,超越Claude-3.7-Sonnet和GPT-4.5等闭源模型,其跨模态推理与跨学科泛化能力,在医疗、教育领域展现广泛应用潜力。
Skywork-R1V 3.0的性能表现
Skywork-R1V 3.0在多个维度表现出色。在2025年高考数学新一卷上取得142分,接近Gemini 2.5 Pro等闭源模型;在大规模多学科多模态理解和推理基准测试MMMU中,成绩为76.0分,人类专家平均分数为76.2分,超越Claude-3.7-Sonnet和GPT-4.5等闭源模型;在视觉推理相关的EMMA-Mini(CoT)、中小学知识点测评集MMK12中,超过规模参数更大的Qwen2.5-VL-72B-Instruct、InternVL3-78B等开源模型;在多模态大模型物理推理能力测试PhyX、数学能力数据集MMK12中,超过Claude 3.7 Sonnet、GPT-4.5、Gemini 2 Flash等主流闭源模型及Qwen 2.5等开源模型;在多模态大模型物理推理能力测试集PhyX-MC-Text-Minimal和SeePhys中,理解物理基础概念和图文结合的复杂物理问题方面,超越谷歌、OpenAI旗下模型。
Skywork-R1V 3.0的能力展示
该模型具备多种能力。能解物理、数学难题,如分析含专业术语的英文物理题目并结合图表解答,推理速度相比上一代提升6倍,解题思维链从4000 token降低至700 token ;拥有跨学科能力,可根据患者医疗影像辅助诊断,还能结合历史背景和视觉细节,解答关于展品的问题;可应对真实世界复杂推理难题,如通过图片信息完成地理定位挑战;还能理解网络热梗,分析梗图中词语双关含义。
Skywork-R1V 3.0的技术关键
Skywork-R1V 3.0跨模态推理、跨学科泛化能力提升有两大关键。一是跨模态融合机制更精巧、有效;二是依靠强化学习方法实现泛化推理能力媲美甚至超越部分闭源巨型模型。其基于上一代模型蒸馏数据“冷启动”,引入强化学习算法GRPO激发推理潜能,实现推理能力在图像和文本模态间迁移。采用关键熵驱动的模型判别机制,筛选具备推理能力的权重版本。通过对连接器定向再训练及精细微调,优化知识融合,保证视觉感知准确性和稳定性。
Skywork-R1V 3.0的开源意义
昆仑万维已全面开源Skywork-R1V 3.0所有资源,其作为昆仑万维多模态模型体系关键节点与核心基石,是昆仑万维探索通用人工智能的重要一步。率先看到多模态推理模型技术发展趋势的昆仑万维,自2025年起陆续开源多个SOTA模型,围绕多模态模型推理的技术体系已成型,通过开源开放策略加速AI理解复杂人类意图、实现应用规模化落地。
以上文章由 AI 总结生成