雅加达 - 谷歌研究人员创造了一种人工智能,可以从文本提示中产生几分钟的音乐作品。甚至人工智能也可以将口哨或嗡嗡声的旋律更改为其他乐器。

这类似于 DALL-E 等系统从写入提示符生成图像的方式。该模型名为MusicLM,虽然您不能自己玩,但该公司已经上传了许多使用该模型制作的样本。

MusicLM是Google的生成音乐模型,它使用深度学习来生成新音乐。此过程涉及使用现有音乐数据(如乐谱、歌曲和音频)训练模型,以了解音乐中的模式和概念。

之后,模型可以通过组合从训练数据中获取的模式和概念来创建新音乐。MusicLM 接受流派、流派和键音等用户输入,并根据用户规范使用此信息生成新音乐。

这些例子令人印象深刻。有 30 秒的片段听起来像由定义特定流派、共鸣甚至乐器的段落长度描述组成的实际歌曲,以及由一两个单词(如“旋律技术”)产生的五分钟片段。"

他们的演示网站上还展示了模特在被要求制作 10 秒的大提琴或马拉卡斯等乐器剪辑、某些流派的 8 秒剪辑、适合越狱的音乐时产生的示例,甚至是新手钢琴演奏者听起来像什么与熟练。它还包括对“未来主义俱乐部”和“手风琴死亡金属”等短语的解释.

MusicLM甚至可以模拟人声,虽然它似乎得到了整体音调和声音的正确,但它肯定有一种品质。最好的描述方式是声音是粗糙或静态的。

人工智能生成的音乐有着悠久的历史,可以追溯到几十年前。有一个系统被认为可以制作流行歌曲,比 90 年代的任何人都更好地模仿巴赫,并伴随着现场表演。

最近的一个版本使用StableDiffusion的AI图像生成引擎将文本命令转换为频谱图,然后转换为音乐。该论文称,MusicLM在“质量和对文本的遵守”方面可以优于其他系统,以及它可以接收音频和转录旋律的事实。

最后一点可能是研究人员发布的最酷的演示之一。该网站可让您播放输入音频,其中有人在哼唱或吹口哨,然后让您听到模型如何将其再现为电子合成器主音、弦乐四重奏、吉他独奏等。

与此类AI的其他尝试一样,谷歌对MusicLM的谨慎程度明显高于一些拥有类似技术的同行。“我们目前没有计划发布模型,”该报援引The Verge的话说。这会产生“潜在的创意内容滥用”或抄袭的风险,以及文化挪用或虚假陈述的可能性。

在某个时候,这项技术总是有可能出现在谷歌有趣的音乐实验中,但就目前而言,唯一能从这项研究中受益的人是其他构建音乐人工智能系统的人。

谷歌表示,它已经公开发布了一个包含大约5.500个音乐文本对的数据集,这在训练和评估其他音乐AI时会有所帮助。


The English, Chinese, Japanese, Arabic, and French versions are automatically generated by the AI. So there may still be inaccuracies in translating, please always see Indonesian as our main language. (system supported by DigitalSiber.id)