当前位置:数智频道首页 > 人工智能 > 正文

打破全球语言壁垒:Meta 推出支持 1600 种语言的语音识别系统并开源

Meta的基础人工智能研究团队推出了“全语种自动语音识别系统”(Omnilingual ASR),支持超过1600种语言的语音转写,大大扩展了现有语音识别技术的语言覆盖范围。此前,多数语音识别工具主要关注几百种资源丰富的语言,而全球现存的7000多种语言中,大多数由于缺乏训练数据而难以获得人工智能支持。Omnilingual ASR旨在缩小这一差距。

打破全球语言壁垒:Meta 推出支持 1600 种语言的语音识别系统并开源

在Omnilingual ASR支持的1600种语言中,有500种是首次被任何AI系统所覆盖。该系统被视为迈向“通用语音转写系统”的重要一步,有望打破全球语言障碍,促进跨语言沟通与信息获取。根据Meta公布的数据,对于测试中的1600种语言,Omnilingual ASR对其中78%的语言实现了低于10%的字符错误率;对于至少拥有10小时训练音频的语言,达到此精度标准的比例上升至95%;即使对于音频时长不足10小时的低资源语言,也有36%达到了低于10% CER的表现。

为了推动后续研究和实际应用,Meta还发布了“全语种ASR语料库”,这是一个包含350种代表性不足语言的大规模转录语音数据集。该语料库采用知识共享署名许可协议开放获取,旨在支持开发者与研究人员针对特定本地语言需求构建或适配定制化的语音识别模型。

Omnilingual ASR的关键创新之一是其“自带语言”功能,该功能基于上下文学习机制实现。用户只需提供少量配对的语音与文本样本,系统即可直接从中学习,无需重新训练或依赖高算力资源就能添加新语言。理论上,这种方法可将Omnilingual ASR的支持能力扩展到5400多种语言,远超当前行业标准。尽管对于极低资源语言的识别质量尚不及完全训练的水平,但这项技术为许多之前完全缺乏语音识别能力的语言社区提供了可行方案。

Meta以Apache 2.0开源许可协议发布了Omnilingual ASR的所有模型,允许研究人员与开发者自由使用、修改及商用;配套数据集则采用CC-BY协议开放。Omnilingual ASR模型系列包括适用于低功耗设备的轻量级3亿参数版本以及追求顶尖精度的70亿参数版本,满足不同应用场景的需求。所有模型均基于FAIR自主研发的PyTorch框架fairseq2构建。

(责任编辑:张佳鑫 张佳鑫)

热点推送

本周关注

MORE