雅加达 - 去年8月,Metam引入了基于人工智能(AI)的翻译工具SeamlessM4T。三个月前推出后,Meta宣布了最新车型。

Meta更新了SeamlessM4T,并称其为第二代(V2)。该服务具有更广泛的翻译工具,因为Meta在此中结合了两种新功能。

Meta添加的第一个功能是无声Expressive。这些工具可以包括通过中断,言语速度,声乐和情感音调等演讲者表达,例如噪音,悲伤和快乐。

该工具是使用表达式代码器和SeamlessM4T V2的基本模型组合创建的。Meta表示,它已经更换了音频处理设备以支持表达式阅读功能。

Meta在其版本中表示:“在无缝M4T v2中替换HiFi-GAN的内置器,使用以源声为条件的表达单元到语音发电机,允许语音,情感表达和声乐风格的传输,而无需障碍。

Meta添加的下一个功能是无缝流式传输,自动引入语音以将语音翻译成文本或语音语音。此工具具有高准确性和高达两秒的延迟。

这种延迟是不可避免的,因为每种语言的句子结构都是不同的。SeamlessM4T中的AI必须研究其情感音频输入,以决定收听的单词和句子是否需要翻译。

Meta解释说:“这是通过研究的阅读或写作政策来实现的,该政策根据部分音频输入决定,无论是否应该写作并产生输出或继续等待其他输入。

目前,SeamlessM4T V2已支持近100种语言的语音翻译,36种语言的语音翻译。这项翻译服务已经接受了450万个数据小时的培训,因此语言有可能增加。

Seamless Communication系列(一项跨语言通信服务)的新功能,这可能成为谷歌和三星开发的翻译竞争对手。但是,目前尚不清楚 SeamlessM4T V2 何时可供公众访问。


The English, Chinese, Japanese, Arabic, and French versions are automatically generated by the AI. So there may still be inaccuracies in translating, please always see Indonesian as our main language. (system supported by DigitalSiber.id)