谷歌DeepMind推出新AI工具以生成视频配乐

雅加达 - 谷歌DeepMind推出了一个新的AI工具来生成视频配乐。此工具不仅使用文本作为传递器来生成音频,还注重视频内容。

根据DeepMind的说法,通过合并这两个元素,用户可以使用此工具创建带有“戏剧调节,逼真的语音效果或与字符和视频音调相匹配的对话”的场景。DeepMind网站上可以看到几个例子,这些例子显示出相当令人满意的音频结果。

例如,对于通过网络朋克城市行驶的汽车视频,谷歌使用促销“滑翔汽车,倾斜的汽车发动机,天使电子音乐”来生成音频。轮胎的起伏声音与汽车的动作同步。另一个例子是使用促销“水下泡沫,海洋生命,海洋”来创建水下声音景观。

虽然用户可以包括促销文本,但DeepMind表示这是可选的。用户也不需要详细将生成的音频与精准的场景匹配。根据DeepMind的说法,该工具可以为视频产生“无限数量”的配乐,使用户可以无限地创建音频流。

这可以使其从其他AI工具中脱颖而出,例如ElevenLabs的音效发电机,使用促销文本来生成音频。该工具还可以使音频更容易与AI生成的视频配对,例如DeepMind的Veo和Sora(后者将在未来结合音频)。

DeepMind表示,它使用视频,音频和音符训练其AI工具,其中包含“语音的详细描述和对话的转述”。这使得视频对音频生成器能够将音频事件与视觉场景相匹配。

此工具仍然有一些限制。例如,DeepMind正试图提高其将唇式动作与对话同步的能力,正如粘贴家庭视频中所示。DeepMind还指出,这些视频对音频系统依赖于视频的质量,因此暗示或扭曲的视频“可能导致音频质量的真正下降”。

DeepMind 工具尚未公开使用,因为它仍然需要接受“严格的安全评估和测试”。可用后,音频输出将包括Google的SynthID水标,以表明它是由人工智能生成的。