微软展示了可以在三秒内模仿人类声音的人工智能

雅加达 - 微软刚刚推出了一款基于人工智能(AI)的语音模拟器,该模拟器能够在短短三秒钟内听一个人说话后准确模仿他们的声音。

这种神经编解码器讨论模型被称为 VALL-E,是一种由 AI 驱动的高级文本到语音转换 (TTS) 系统。该系统可以训练成像任何人一样说话,仅基于他们三秒钟的声音样本。

“具体来说,我们使用从即用型神经音频编解码器模型派生的离散代码训练VALL-E,并认为TTS是一项条件语言建模任务,而不是像以前的工作那样连续信号回归,”微软研究人员说。

因此,TTS系统听起来非常自然,对现有系统采取了完全不同的方法。

此外,VALL-E 听起来也像人类一样逼真,它能够比以往更好地传达音调和情感。但有人担心,该系统可能用于深度伪造音频。

VALL-E 是使用来自数千人的 60,000 小时音频输入(包括公共领域有声读物)创建和训练的。使用简短的样本,VALL-E能够以以前不可能的方式模仿声音的音调和音色。

“在预训练阶段,我们将TTS训练数据增加到6万小时的英语语音,比现有系统大数百倍,”微软研究人员说。

“VALL-E在上下文中唤起了学习能力,可用于合成高质量的个人语音,只需3秒钟的隐形扬声器注册录音作为声学提示,”他补充说。

微软的研究团队在1月11日星期三推出Beta News时补充说,实验结果表明,VALL-E在语音自然度和说话人相似性方面明显优于先进的零镜头TTS系统。

“此外,我们发现VALL-E可以从合成中的声学提示中保留说话者的情绪和声学环境,”微软研究小组说。