2025年9月23日,阿里通义大模型团队深夜发力,连发三款重磅开源模型,全面升级多模态AI能力矩阵。这三款模型分别为原生全模态大模型Qwen3-Omni、语音合成模型Qwen3-TTS以及图像编辑模型Qwen-Image-Edit-2509,它们各具特色,且同步开源,为全球开发者提供了新的助力,也巩固了阿里在开源AI领域的领先地位。
三款模型齐亮相,全面升级多模态AI能力矩阵
深夜,阿里通义大模型团队带来惊喜,连发三款重磅开源模型。原生全模态大模型Qwen3-Omni、语音合成模型Qwen3-TTS、图像编辑模型Qwen-Image-Edit-2509的发布,标志着阿里在多模态AI能力矩阵上的全面升级。
Qwen3-Omni:全球首个原生端到端全模态基础模型
Qwen3-Omni堪称亮点十足,它是全球首个原生端到端全模态基础模型 ,支持文本、图像、音频、视频四类输入,并可同步输出文本与自然语音,实现“边听边说”的流式交互体验。在36项音视频权威基准测试中,它斩获32项开源模型第一、22项总体SOTA,性能超越Gemini 2.5 Pro、GPT-4o-Transcribe等闭源模型,同时在图像与文本单项能力上亦保持同尺寸模型领先,真正做到“多模态不妥协”。
Qwen3-TTS:聚焦高自然度语音生成
Qwen3-TTS聚焦于高自然度语音生成,支持17种差异化音色与10种主流语言,在音色相似度、语句稳定性等关键指标上超越SeedTTS与GPT-4o-Audio-Preview,适用于客服、播客、教育、有声内容等场景,为语音应用领域带来新的活力。
Qwen-Image-Edit-2509:支持“多图融合编辑”
Qwen-Image-Edit-2509此次重大升级支持“多图融合编辑”,用户能够自由拼接不同图片中的人物与物体,实现跨图层创意合成,功能对标谷歌Nano Banana,且开源免费,大幅降低AIGC创作门槛,让更多创作者能够轻松实现创意。
模型开源意义重大,助力开源AI领域发展
三款模型同步开源,开发者可通过ModelScope或Hugging Face免费获取,支持本地部署与商用。这一举措不仅巩固了阿里在开源AI领域的领先地位,更为全球开发者提供低成本、高性能、全链路的多模态AI基础设施,推动AI技术进一步发展。
以上文章由 AI 总结生成