2025年12月9日,阿里Qwen团队发布新一代原生全模态大模型Qwen3-Omni-Flash-2025-12-01,在多模态交互等方面实现重大突破,带来从功能到体验的全方位升级。
全新升级,实现多模态无缝交互与实时输出
阿里Qwen团队于2025年12月9日发布新一代原生全模态大模型Qwen3-Omni-Flash-2025-12-01,此模型在Qwen3-Omni基础上全面升级。它支持文本、图像、音视频的无缝输入,还能通过实时流式响应,同步生成高质量的文本与自然语音,真正实现了多模态信息处理的流畅性。
解决交互痛点,提升对话体验
针对口语化场景中常见的“降智”问题,Qwen3-Omni-Flash大幅增强了对音视频指令的理解与执行能力。同时,显著提升多轮对话的稳定性与连贯性,告别了语音生成中语速拖沓、机械呆板的现象。如今,模型能根据文本内容自适应调节语速、停顿与韵律,语音表现的自然度与拟人化程度逼近真人水平,为用户带来更流畅的对话体验。
开放自定义权限,增添模型可玩性与实用性
此次升级中,系统提示(System prompt)控制能力取得飞跃。Qwen团队全面开放System prompt自定义权限,用户可精细调控模型行为模式,无论是设定“甜妹”“御姐”“日系”等特定人设风格,还是调整口语化表达偏好及回复长度,模型均能精准执行,大大增加了AI的可玩性和实用性。
强化多语言能力,确保跨语言响应准确
Qwen3-Omni-Flash的多语言能力更加可靠,支持119种文本语言交互、19种语音识别语言及10种语音合成语言,在跨语言场景下也能保证响应准确一致。
客观性能提升,展现强大实力
在客观性能指标上,Qwen3-Omni-Flash-2025-12-01表现卓越。数据显示,该模型在逻辑推理任务(ZebraLogic)上得分提升5.6,在代码生成(LiveCodeBench-v6)上提升9.3,在多学科视觉问答(MMMU)上提升4.7。这表明新模型不仅对图像与视频内容的理解更准确,在复杂指令遵循与深度逻辑分析上也有新突破。
以上文章由 AI 总结生成




