谷歌开发了MusicLM AI,可以在几分钟内从提示文本中产生音乐作品

雅加达 - 谷歌研究人员创造了一种人工智能,可以从文本提示中产生几分钟的音乐作品。甚至人工智能也可以将口哨或嗡嗡声的旋律更改为其他乐器。

这类似于 DALL-E 等系统从写入提示符生成图像的方式。该模型名为MusicLM,虽然您不能自己玩,但该公司已经上传了许多使用该模型制作的样本。

MusicLM是Google的生成音乐模型,它使用深度学习来生成新音乐。此过程涉及使用现有音乐数据(如乐谱、歌曲和音频)训练模型,以了解音乐中的模式和概念。

之后,模型可以通过组合从训练数据中获取的模式和概念来创建新音乐。MusicLM 接受流派、流派和键音等用户输入,并根据用户规范使用此信息生成新音乐。

这些例子令人印象深刻。有 30 秒的片段听起来像由定义特定流派、共鸣甚至乐器的段落长度描述组成的实际歌曲,以及由一两个单词(如“旋律技术”)产生的五分钟片段。"

他们的演示网站上还展示了模特在被要求制作 10 秒的大提琴或马拉卡斯等乐器剪辑、某些流派的 8 秒剪辑、适合越狱的音乐时产生的示例,甚至是新手钢琴演奏者听起来像什么与熟练。它还包括对“未来主义俱乐部”和“手风琴死亡金属”等短语的解释.

MusicLM甚至可以模拟人声,虽然它似乎得到了整体音调和声音的正确,但它肯定有一种品质。最好的描述方式是声音是粗糙或静态的。

人工智能生成的音乐有着悠久的历史,可以追溯到几十年前。有一个系统被认为可以制作流行歌曲,比 90 年代的任何人都更好地模仿巴赫,并伴随着现场表演。

最近的一个版本使用StableDiffusion的AI图像生成引擎将文本命令转换为频谱图,然后转换为音乐。该论文称,MusicLM在“质量和对文本的遵守”方面可以优于其他系统,以及它可以接收音频和转录旋律的事实。

最后一点可能是研究人员发布的最酷的演示之一。该网站可让您播放输入音频,其中有人在哼唱或吹口哨,然后让您听到模型如何将其再现为电子合成器主音、弦乐四重奏、吉他独奏等。

与此类AI的其他尝试一样,谷歌对MusicLM的谨慎程度明显高于一些拥有类似技术的同行。“我们目前没有计划发布模型,”该报援引The Verge的话说。这会产生“潜在的创意内容滥用”或抄袭的风险,以及文化挪用或虚假陈述的可能性。

在某个时候,这项技术总是有可能出现在谷歌有趣的音乐实验中,但就目前而言,唯一能从这项研究中受益的人是其他构建音乐人工智能系统的人。

谷歌表示,它已经公开发布了一个包含大约5.500个音乐文本对的数据集,这在训练和评估其他音乐AI时会有所帮助。