阿里发布超强语音模型,多方面表现卓越可免费体验

09-10 06:42

智东西9月9日消息,昨日阿里推出最新语音识别模型Qwen3 - ASR - Flash。该模型基于Qwen3基座模型训练,支持11种语言和多种口音,用户可通过ModelScope、HuggingFace和阿里云百炼API Qwen3 - ASR - Flash免费体验。



在ASR(自动语音识别)的多项基准测试中,Qwen3 - ASR - Flash在方言、多语种、关键信息识别、歌词等方面的识别错误率显著低于谷歌Gemini - 2.5 - Pro、OpenAI GPT - 4o - Transcribe、阿里巴巴语音实验室Paraformer - v1、字节豆包Doubao - ASR。


此模型基于海量多模态数据以及千万小时规模ASR数据构建,能识别中文、英语、法语、德语等11个语种,识别时可自动分辨语音语种,还能自动过滤静音和背景噪声等非语音片段。


此外,用户可定制ASR结果,在上传音频时添加关键信息术语、音频发生背景等上下文信息,就能让识别结果与已有信息相匹配。


官方给出了电竞比赛解说音频示例,研究人员为该场景配置了包括关键词列表、游戏背景等背景信息,即便电竞解说人员语速极快,也不影响对游戏专业术语的识别效果。



  • ModelScope地址:https://modelscope.cn/studios/Qwen/Qwen3 - ASR - Demo
  • Hugging Face地址:https://huggingface.co/spaces/Qwen/Qwen3 - ASR - Demo
  • 阿里云百炼API调用地址:https://bailian.console.aliyun.com/?tab=doc#/doc/?type=model&url=2979031

01.能识别游戏解说、英文说唱,连续多种噪音抗干扰拉满


官方公布了5个演示示例,涵盖多种类型噪声、多语种快速切换、方言、专业名词的音频识别难题。


第一个示例包含手机铃声、车铃声、音乐声、水声、雷声等多种类型的连续噪音,还有不同人物间的对话切换。Qwen3 - ASR - Flash在多人同时说话或说话间隔很短的情况下,仍能准确识别语音,不受噪声干扰。



第二个是英文说唱音频。英文说唱语速快、单词连读多,该模型能准确识别很多歌词中的单词连读和长难句,且不受背景音乐干扰。



第三个是方言识别示例。音频中主人公开车时,方言与智能语音客服的普通话穿插出现,智能语音客服将“纠正”误识别为“96”,而Qwen3 - ASR - Flash识别准确。



第四个是多语种句子切换示例,7秒音频里有英语、日语等5种语言,模型识别结果准确呈现。



最后是化学课程音频示例,模型对酯基、酸、醛、氨等化学名词以及人物语气词的识别均无差错。



02.歌词识别错误率低于8%,可定制语音识别结果


在性能方面,Qwen3 - ASR - Flash在中文、英文、多语言、歌词、关键信息上的识别错误率均低于Gemini - 2.5 - Pro、GPT - 4o - Transcribe、Paraformer - v1、Doubao - ASR。


在歌词识别中,该模型支持清唱和带背景音乐的整首歌识别,研究人员实测其识别错误率低于8%。



该模型支持普通话以及四川话、闽南语、吴语、粤语等方言,英式、美式及多地区口音的英语,还有法语、德语、俄语、意大利语、西班牙语、葡萄牙语、日语、韩语和阿拉伯语。


若用户想获得定制化的ASR结果,可提供任意格式的背景文本来得到倾向性ASR结果,且无需对上下文信息进行预处理。


其支持的格式包括简单的关键词或热词列表、任意长度和来源的完整段落或整篇文档、以任意格式混合的关键词列表与全文段落、无关甚至无意义的文本。研究人员表示,模型对无关上下文的负面影响具有高度鲁棒性。基于此,Qwen3 - ASR - Flash可利用上下文识别并匹配命名实体和其他关键术语,输出定制化识别结果。


03.结语:后续将迭代通用语音识别精度


一直以来,复杂声学环境、多样化语音特征、专业术语等是语音识别的最大难题。此次为确保用户对输出结果的可控性,阿里研究人员增加了背景文本上传功能,使识别结果更符合用户预期。


下一步,研究人员将提升Qwen3 - ASR - Flash的通用识别精度,进一步降低普通用户的使用门槛。


本文来自微信公众号“智东西”(ID:zhidxcom),作者:程茜,编辑:心缘,36氪经授权发布。


本文仅代表作者观点,版权归原创者所有,如需转载请在文中注明来源及作者名字。

免责声明:本文系转载编辑文章,仅作分享之用。如分享内容、图片侵犯到您的版权或非授权发布,请及时与我们联系进行审核处理或删除,您可以发送材料至邮箱:service@tojoy.com