翻译界的变革:Meta新模型打破语言数字鸿沟

2025-11-12

方言障碍终结者来了,Meta带来语音识别新突破

在全球7000多种人类语言里,仅有少数被现代语音技术关注到,如今这种不平等状况有望改变。Meta发布的Omnilingual ASR系统能识别1600多种语言,还可通过少量示例快速学会新语言。该技术以开源和社区共创为核心,让每种声音都有机会登上AI舞台。

想象一下,世界上7000多种活跃语言中,只有几百种享受过现代语音技术的“优待”。绝大多数人类语言的使用者,像非洲部落的土著、亚马逊雨林的族群,以及乡野小镇讲古老方言的老人,一直处于数字时代的边缘。

语音助手、自动字幕、实时翻译等AI带来的便利,似乎只属于少数“主流”语言,其他语言社区被挡在技术大门外。不过,这种数字鸿沟现在有了破局者。

Meta人工智能研究团队发布了Omnilingual ASR系统,这是一个能自动识别转录1600多种语言语音的AI模型族,几乎能让所有人类语言被机器“听懂”。

该系统以开源形式共享给全球,还能让社区自行拓展新语言,让每种声音都有机会在AI领域展现。

1600种语言,开启语音识别新征程

Meta推出的Omnilingual ASR创造了语音识别覆盖语言数量的新纪录,支持超1600种语言,其中500种是此前任何AI系统都未转录过的。相比之下,OpenAI开源的Whisper模型仅支持99种语言,Omnilingual ASR将这一数字大幅提升。

对于全球众多小语种使用者来说,这是一次“数字翻身”,他们的母语首次有了被AI准确听懂的可能。该系统的识别性能在很多语种上处于领先。据Meta数据,在测试的1600多种语言中,78%的语种识别错误率(CER)低于10%;若以10小时以上语音数据训练的语种来看,这一比例达95%。即便对于训练语料稀少的低资源语言,也有36%实现了CER低于10%的效果。

这表明Omnilingual ASR不仅覆盖范围广,还能在多数语言上提供实用且高质量的转录结果。但1600种语言并非终点,它打破了以往ASR模型语言支持范围固定的局限,使语言覆盖从“定量”变为“可扩展”。

Omnilingual ASR借鉴大语言模型思路,引入零样本的“上下文学习”机制。即便某种语言不在初始支持列表中,用户只需提供几段该语言的音频和对应文本示例,模型就能在推理过程中即时学会新语言。无需长时间收集大型语料和专业深度学习训练,简单的少样本学习即可。

凭借这种创新范式,Omnilingual ASR的潜在语言覆盖能力大大增强。官方称,理论上该系统可扩展到超5400种语言,几乎涵盖所有有文字记录的人类语言。无论多冷门的口语,只要有书写体系和示例,都可能被捕捉记录。

在AI语音识别领域,这是从静态封闭到动态自适应的范式转变,模型成为灵活开放的框架,鼓励各地社区自行添加新语言。对于长期被技术忽视的族群来说,这就像拿到了开启新语言大门的钥匙。

开源与社区,携手跨越语言障碍

Omnilingual ASR的显著特点是开源和社区驱动。Meta将该多语种ASR系统在GitHub上完全开源,采用Apache 2.0许可发布模型和代码。

研究人员、开发者和企业机构都能免费使用、修改和商用该模型,无需担心复杂的授权限制。与一些有附加条款的“半开源”AI模型相比,Omnilingual ASR的开放态度十分难得,为技术民主化树立了榜样。

为让各语言社区受益,Meta不仅开放模型,还发布了Omnilingual ASR语料库。该语料库包含350种语料稀缺语言的转录语音数据,涵盖许多以前在数字世界“失声”的语言,所有数据以CC - BY协议开放。

开发者和学者可利用这些资源训练改进适合本地需求的语音识别模型,这有助于缺乏大规模标注语料的语言跨越数据门槛,让“小语言”也有发展机会。

Omnilingual ASR能覆盖如此多语言,离不开全球合作。开发过程中,Meta与各地语言组织和社区合作收集大量语音样本,如与Mozilla基金会的Common Voice项目、非洲的Lanfrica/NaijaVoices等机构合作,从偏远地区招募母语人士录制语音。

为保证数据多样且贴近生活,录音采用开放式提问,让说话人自由表达日常想法。所有参与者都获得合理报酬,并遵循文化敏感性指导采集数据。这种社区共创模式让Omnilingual ASR拥有深厚的语言学知识和文化理解,体现了人文关怀,技术并非居高临下地“拯救”小语种,而是让当地社区成为语言数字化的主角。

技术规格上,Meta提供不同规模的模型适配多样应用场景,从适合手机等低功耗设备的约3亿参数量轻量级模型,到追求极致准确率的70亿参数强力模型都有。

模型架构采用自监督预训练的wav2vec 2.0语音编码器(拓展到70亿参数规模)提取通用音频特征,结合传统的CTC解码和融入Transformer的大模型文本解码器,后者赋予模型强大的上下文学习能力。

Omnilingual ASR训练使用超430万小时的语音音频,涵盖1239种语言素材,这是有史以来规模大、多样性高的语音训练语料之一。大量数据加上社区贡献的长尾语言语料,确保模型对各种语言有稳健的语音表示,对未见过的语言也有良好泛化基础。

正如研究论文所说,“没有模型能预先涵盖所有语言,但Omnilingual ASR让社区能用自己的数据持续拓展”。这意味着语音AI有了自我生长能力,能与人类语言的丰富多样性共同进化。

当技术以开源姿态拥抱多元,每种语言的声音都能被聆听和记录,不再有语言被数字世界遗忘,我们就离消除语言鸿沟更近一步,人类的连接也将真正打破边界。

参考资料:

https://ai.meta.com/blog/omnilingual-asr-advancing-automatic-speech-recognition

本文来自微信公众号“新智元”,作者:新智元,36氪经授权发布。

本文仅代表作者观点,版权归原创者所有,如需转载请在文中注明来源及作者名字。

免责声明:本文系转载编辑文章,仅作分享之用。如分享内容、图片侵犯到您的版权或非授权发布,请及时与我们联系进行审核处理或删除,您可以发送材料至邮箱:service@tojoy.com