分享好友 资讯首页 频道列表

昆仑万维开源多模态推理模型Skywork-R1V 3.0,性能逼近人类专家超Claude、GPT

2025-07-10 18:06290

7月9日,昆仑万维重磅开源迄今最强多模态推理模型Skywork-R1V 3.0,参数规模38B。该模型在多个多模态推理基准测试中取得开源最佳性能,在MMMU测试中逼近人类专家水平,超越Claude-3.7-Sonnet和GPT-4.5等闭源模型,其跨模态推理与跨学科泛化能力,在医疗、教育领域展现广泛应用潜力。



Skywork-R1V 3.0的性能表现

Skywork-R1V 3.0在多个维度表现出色。在2025年高考数学新一卷上取得142分,接近Gemini 2.5 Pro等闭源模型;在大规模多学科多模态理解和推理基准测试MMMU中,成绩为76.0分,人类专家平均分数为76.2分,超越Claude-3.7-Sonnet和GPT-4.5等闭源模型;在视觉推理相关的EMMA-Mini(CoT)、中小学知识点测评集MMK12中,超过规模参数更大的Qwen2.5-VL-72B-Instruct、InternVL3-78B等开源模型;在多模态大模型物理推理能力测试PhyX、数学能力数据集MMK12中,超过Claude 3.7 Sonnet、GPT-4.5、Gemini 2 Flash等主流闭源模型及Qwen 2.5等开源模型;在多模态大模型物理推理能力测试集PhyX-MC-Text-Minimal和SeePhys中,理解物理基础概念和图文结合的复杂物理问题方面,超越谷歌、OpenAI旗下模型。


Skywork-R1V 3.0的能力展示

该模型具备多种能力。能解物理、数学难题,如分析含专业术语的英文物理题目并结合图表解答,推理速度相比上一代提升6倍,解题思维链从4000 token降低至700 token ;拥有跨学科能力,可根据患者医疗影像辅助诊断,还能结合历史背景和视觉细节,解答关于展品的问题;可应对真实世界复杂推理难题,如通过图片信息完成地理定位挑战;还能理解网络热梗,分析梗图中词语双关含义。


Skywork-R1V 3.0的技术关键

Skywork-R1V 3.0跨模态推理、跨学科泛化能力提升有两大关键。一是跨模态融合机制更精巧、有效;二是依靠强化学习方法实现泛化推理能力媲美甚至超越部分闭源巨型模型。其基于上一代模型蒸馏数据“冷启动”,引入强化学习算法GRPO激发推理潜能,实现推理能力在图像和文本模态间迁移。采用关键熵驱动的模型判别机制,筛选具备推理能力的权重版本。通过对连接器定向再训练及精细微调,优化知识融合,保证视觉感知准确性和稳定性。


Skywork-R1V 3.0的开源意义

昆仑万维已全面开源Skywork-R1V 3.0所有资源,其作为昆仑万维多模态模型体系关键节点与核心基石,是昆仑万维探索通用人工智能的重要一步。率先看到多模态推理模型技术发展趋势的昆仑万维,自2025年起陆续开源多个SOTA模型,围绕多模态模型推理的技术体系已成型,通过开源开放策略加速AI理解复杂人类意图、实现应用规模化落地。


以上文章由 AI 总结生成

反对 0
举报 0
收藏 0
打赏 0
评论 0
上金所调整贵金属延期合约保证金及涨跌停板比例,应对贵金属价格连续上涨与市场波动
今年以来,黄金、白银等贵金属价格涨幅巨大,8月下旬起加速上涨,市场波动加剧。9月3日,上海黄金交易所发布公告,对黄金延期品

0评论2025-09-042

汇丰经济学家范力民:预计9月后美联储最多降息3次,看好人民币继续走强
9月2日,汇丰环球投资研究首席亚洲经济学家范力民在汇丰第十二届中国研讨会间隙,就美联储降息与人民币走势发表见解。他预计美联

0评论2025-09-042

英伟达收购AI编程自动化初创公司Solver,年内已完成4次收购
据The Information报道,英伟达又有新动作,将成立仅3年的美国AI编程自动化初创公司Solver纳入麾下,这已是其2025年的第四次收购

0评论2025-09-043

微信、QQ支持绑定Steam账号,可展示游戏数据促进玩家互动
近日,微信和QQ纷纷推出绑定Steam账号功能,为玩家的游戏社交带来新体验。微信在「发现页」的游戏模块支持绑定,iOS和安卓端已全

0评论2025-09-040

字节跳动为大模型核心员工实施期权增发计划,最高超百万
在大模型领域竞争白热化、人才争夺日益激烈的当下,字节跳动为稳固核心研发力量,对旗下Seed部门大模型方向的核心技术员工实施期

0评论2025-09-042

阿斯麦CEO:愿与印度芯片制造商合作,支持印度推动芯片本土制造
上个月,印度总理莫迪宣布重启“半导体战略”,欲推动芯片本土制造,首款芯片将于年底入市。对此,寻求开拓印度市场的阿斯麦CEO

0评论2025-09-042

百度海外推出运动健身工具APP“SnapEat AI”,由GPT-4o大模型支持
近日,百度在海外上线运动健身工具APP“SnapEat AI”,该产品借助GPT-4o大模型技术,集卡路里计算、食物跟踪、营养搭配建议等功

0评论2025-09-041

OpenAI研究员Aidan:Claude Code将与ChatGPT一同载入史册
近日,OpenAI研究员Aidan对Claude Code不吝赞美之词,认为它在多方面表现卓越,注定会与ChatGPT一道被历史铭记,且对Anthropic的

0评论2025-09-0321

DeepSeek紧跟新规,标注AI生成内容并公开V3/R1训练细节
网信办《人工智能生成合成内容标识办法》生效当日,DeepSeek迅速响应,不仅对AI生成内容进行明确标识,还公开V3/R1模型训练细节

0评论2025-09-0316

DeepSeek发布AI生成内容标识公告,已在平台内添加标识并提供技术说明
2025年9月1日,随着《人工智能生成合成内容标识办法》正式施行,DeepSeek迅速响应,发布《DeepSeek关于AI生成合成内容标识的公告

0评论2025-09-0216