免费发布消息

阿里发布语音识别模型Qwen3-ASR-Flash,性能表现优于谷歌、OpenAI等竞品

   2025-09-10 10
核心提示:9月8日,阿里发布基于Qwen3基座模型训练的语音识别模型Qwen3-ASR-Flash。该模型支持11种语言与多种口音,能自动分辨语种、过滤非

9月8日,阿里发布基于Qwen3基座模型训练的语音识别模型Qwen3-ASR-Flash。该模型支持11种语言与多种口音,能自动分辨语种、过滤非语音片段,在方言、多语种等方面识别错误率低于谷歌Gemini-2.5-Pro等竞品,还可定制识别结果,官方演示示例凸显其优异性能,未来阿里将提升其通用识别精度。


Qwen3-ASR-Flash发布详情

9月8日,阿里发布最新语音识别模型Qwen3-ASR-Flash,该模型基于Qwen3基座模型训练。它支持中文、英语、法语等11种语言和多种口音,用户可通过ModelScope、HuggingFace和阿里云百炼API Qwen3-ASR-Flash免费体验。


性能优势显著

在ASR(自动语音识别)的多项基准测试中,Qwen3-ASR-Flash表现出色。在方言、多语种、关键信息识别、歌词等方面,其识别错误率明显低于谷歌Gemini-2.5-Pro、OpenAI GPT-4o-Transcribe、阿里巴巴语音实验室Paraformer-v1、字节豆包Doubao-ASR。例如在歌词识别中,该模型支持清唱和带背景音乐的整首歌识别,研究人员实测识别错误率低于8%。


功能特性丰富

该模型不仅能自动分辨语音语种、自动过滤静音和背景噪声等非语音片段,还可定制ASR结果。用户上传音频时添加关键信息术语、音频发生背景等上下文信息,就能使识别结果匹配这些已有信息。其支持的上下文信息格式多样,包括简单关键词列表、完整段落文档等,且对无关上下文负面影响具有高度鲁棒性,可据此输出定制化结果。


复杂场景识别能力强

官方放出5个演示示例,展示了Qwen3-ASR-Flash在复杂场景下的卓越识别能力。面对夹杂手机铃声、车铃声等多种连续噪音,且多人说话切换频繁的音频,它不受干扰准确识别;对于英文说唱,能准确识别单词连读、长难句;方言识别中,即使智能语音客服有误识别,它也能准确判断;多语种句子快速切换,7秒内5种语言都能准确呈现;化学课程音频里的专业名词和语气词也识别无误。


未来迭代方向

复杂声学环境、多样化语音特征、专业术语等一直是语音识别难点。此次阿里研究人员上线背景文本上传功能保证用户对输出结果的可控。下一步,研究人员将提升Qwen3-ASR-Flash的通用识别精度,进一步降低普通用户的使用门槛。


以上文章由 AI 总结生成

 
反对 0举报 0 收藏 0 打赏 0评论 0
 
更多>同类资讯
推荐图文
推荐资讯
点击排行