SeamlessM4T V2 Meta Creation with Expressive Reading and Minimum Latency

雅加达 - 去年8月,Metam引入了基于人工智能(AI)的翻译工具SeamlessM4T。三个月前推出后,Meta宣布了最新车型。

Meta更新了SeamlessM4T,并称其为第二代(V2)。该服务具有更广泛的翻译工具,因为Meta在此中结合了两种新功能。

Meta添加的第一个功能是无声Expressive。这些工具可以包括通过中断,言语速度,声乐和情感音调等演讲者表达,例如噪音,悲伤和快乐。

该工具是使用表达式代码器和SeamlessM4T V2的基本模型组合创建的。Meta表示,它已经更换了音频处理设备以支持表达式阅读功能。

Meta在其版本中表示:“在无缝M4T v2中替换HiFi-GAN的内置器,使用以源声为条件的表达单元到语音发电机,允许语音,情感表达和声乐风格的传输,而无需障碍。

Meta添加的下一个功能是无缝流式传输,自动引入语音以将语音翻译成文本或语音语音。此工具具有高准确性和高达两秒的延迟。

这种延迟是不可避免的,因为每种语言的句子结构都是不同的。SeamlessM4T中的AI必须研究其情感音频输入,以决定收听的单词和句子是否需要翻译。

Meta解释说:“这是通过研究的阅读或写作政策来实现的,该政策根据部分音频输入决定,无论是否应该写作并产生输出或继续等待其他输入。

目前,SeamlessM4T V2已支持近100种语言的语音翻译,36种语言的语音翻译。这项翻译服务已经接受了450万个数据小时的培训,因此语言有可能增加。

Seamless Communication系列(一项跨语言通信服务)的新功能,这可能成为谷歌和三星开发的翻译竞争对手。但是,目前尚不清楚 SeamlessM4T V2 何时可供公众访问。