雅加达 - 谷歌DeepMind推出了一个新的AI工具来生成视频配乐。此工具不仅使用文本作为传递器来生成音频,还注重视频内容。

根据DeepMind的说法,通过合并这两个元素,用户可以使用此工具创建带有“戏剧调节,逼真的语音效果或与字符和视频音调相匹配的对话”的场景。DeepMind网站上可以看到几个例子,这些例子显示出相当令人满意的音频结果。

例如,对于通过网络朋克城市行驶的汽车视频,谷歌使用促销“滑翔汽车,倾斜的汽车发动机,天使电子音乐”来生成音频。轮胎的起伏声音与汽车的动作同步。另一个例子是使用促销“水下泡沫,海洋生命,海洋”来创建水下声音景观。

虽然用户可以包括促销文本,但DeepMind表示这是可选的。用户也不需要详细将生成的音频与精准的场景匹配。根据DeepMind的说法,该工具可以为视频产生“无限数量”的配乐,使用户可以无限地创建音频流。

这可以使其从其他AI工具中脱颖而出,例如ElevenLabs的音效发电机,使用促销文本来生成音频。该工具还可以使音频更容易与AI生成的视频配对,例如DeepMind的Veo和Sora(后者将在未来结合音频)。

DeepMind表示,它使用视频,音频和音符训练其AI工具,其中包含“语音的详细描述和对话的转述”。这使得视频对音频生成器能够将音频事件与视觉场景相匹配。

此工具仍然有一些限制。例如,DeepMind正试图提高其将唇式动作与对话同步的能力,正如粘贴家庭视频中所示。DeepMind还指出,这些视频对音频系统依赖于视频的质量,因此暗示或扭曲的视频“可能导致音频质量的真正下降”。

DeepMind 工具尚未公开使用,因为它仍然需要接受“严格的安全评估和测试”。可用后,音频输出将包括Google的SynthID水标,以表明它是由人工智能生成的。


The English, Chinese, Japanese, Arabic, and French versions are automatically generated by the AI. So there may still be inaccuracies in translating, please always see Indonesian as our main language. (system supported by DigitalSiber.id)