卡内基梅隆大学团队推出适用于数千种语言的语音识别项目

音频技术 • 来源：21dB声学人 • 2023年1月12日下午6:49 • 行业资讯

全世界使用的7000到8000种语言中只有一小部分受益于现代语言技术，如语音到文本转录、自动字幕、即时翻译和语音识别。卡内基梅隆大学的研究人员希望将自动语音识别工具的语言数量从大约200种增加到潜在的2000种。

“这个世界上很多人说不同的语言，但语言技术工具并没有为所有人开发。”计算机科学学院语言技术研究所（LTI）的博士生Xinjian Li说，“为所有人开发技术和良好的语言模型是这项研究的目标之一。”

Li是研究团队的一员，旨在简化语言创建语音识别模型所需的数据要求。该团队还包括LTI教职员工Shinji Watanabe、Florian Metze、David Mortensen和Alan Black，他们在Interspeech 2022上展示了他们的最新作品“ASR2K：约2000种无音频的语音识别”。

大多数语音识别模型需要两个数据集：文本和音频。文本数据适用于数千种语言，而音频数据则不能。该团队希望通过关注多种语言中常见的语言元素来消除对音频数据的需求。

从历史上看，语音识别技术专注于语言的音素。这些将一个单词与另一个单词区分开来的不同声音，就像“d”区分了“dog”、“log”和“cog”一样，这些声音在每种语言中都是独一无二的。但语言也有“音”，它描述了一个单词在物理上的声音。多个“音”可能对应于一个音素。因此，即使不同的语言可能有不同的音素，它们的基础音素也可能是相同的。

LTI团队正在开发一种语音识别模型，该模型摆脱了音素，而是依赖于有关“音”如何在语言之间共享的信息，从而减少了为每种语言构建单独模型的工作量。具体来说，它将模型与系统发育树（绘制语言之间关系的图表）配对，以帮助制定发音规则。通过他们的模型和树结构，团队可以在没有音频数据的情况下得到近似数千种语言的语音模型。

“我们正试图取消这种音频数据要求，这有助于我们从100或200种语言增加到2000种语言。”Li说，“这是第一个针对如此大量语言的研究，我们是第一个旨在将语言工具扩展到这个范围的团队。”

该研究仍处于早期阶段，已将现有的语言近似工具提高了5%，但该团队希望它不仅能为他们未来的工作提供灵感，还能为其他研究人员的工作提供灵感。

对Li来说，这项工作的意义不仅仅是让所有人都能使用语言技术。这是关于文化保护的。

“每种语言都是其文化中非常重要的因素。每种语言都有自己的故事，如果你不努力保护语言，这些故事可能会丢失。“Li说，“开发这种语音识别系统和这个工具是试图保护这些语言的一步。”

信息源于：Carnegie Mellon University School of Computer Science