雅加达 - 谷歌计划建立一个支持1000种不同语言的人工智能(AI)语言模型,据传该技术将在几个月后的年度I / O活动中推出。

在上市之前,谷歌分享了有关通用语音模型(USM)的更多信息,该公司将该系统描述为实现其目标的第一步。

这家技术巨头将USM描述为最先进的语音模型的集合,其中包含20亿个参数,用于1200万小时的语音和300多种语言的280亿个句子。

到目前为止,USM已经支持100多种语言,并将作为构建更广泛系统的基础。

“我们证明,使用没有标签的大型多语言数据集来预训练模型编码器并优化较小的标记数据集,使我们能够识别代表性不足的语言,”谷歌在一篇博客文章中说。

“此外,我们的模型训练过程在适应新的语言和数据方面是有效的,”他补充说。

众所周知,YouTube已经使用USM来创建隐藏式字幕,还支持Whisper或自动语音识别(ASR)。

它会自动检测和翻译语言,包括英语、中文、阿姆哈拉语、宿务语、阿萨姆语等等。据报道,Meta 也在开发类似的 AI 翻译工具,该工具仍处于早期阶段。

“对于语音翻译,我们在CoVoST(大规模多语言语音到文本翻译语料库)数据集上改进了USM。我们的模型包括通过我们频道第二阶段的文本,以有限的监督数据实现最先进的质量,“谷歌说。

在其模型范围的性能评估中,Google根据资源可用性将其CoVoST数据集中的语言分为高,中和低,并计算每个细分的BLEU分数(越高越好)。USM在所有细分市场中的表现都优于Whisper。

The Verge报道,3月8日星期三援引,这项技术的目标之一可能是增强现实(AR)眼镜,就像谷歌在去年的I / O活动中展示的概念一样,它能够检测并提供出现在屏幕上的实时翻译。在我眼前。

“USM的发展是实现Google组织世界信息并使其普遍可访问的使命的重要努力。我们相信USM基本模型架构和训练管道构成了我们可以建立的基础,可以将语音建模扩展到接下来的1.000种语言,“谷歌说。


The English, Chinese, Japanese, Arabic, and French versions are automatically generated by the AI. So there may still be inaccuracies in translating, please always see Indonesian as our main language. (system supported by DigitalSiber.id)