Googleは、プロンプトテキストから数分で音楽作品を制作できるMusicLM AIを開発しています

ジャカルタ-Googleの研究者は、テキストプロンプトから数分の音楽作品を作成できるAIを作成しました。AIでさえ、口笛を吹いたり、メロディーを他の楽器に変えたりすることができます。

これは、DALL-E のようなシステムが書き込みプロンプトからイメージを生成する方法と似ています。このモデルはMusicLMと呼ばれ、自分でいじることはできませんが、同社はモデルを使用して作成されたサンプルをたくさんアップロードしています。

MusicLMは、ディープラーニングを使用して新しい音楽を生成するGoogleの生成音楽モデルです。このプロセスでは、楽譜、曲、オーディオなどの既存の音楽データを使用してモデルをトレーニングし、音楽のパターンと概念を理解します。

その後、モデルはトレーニングデータから取得したパターンと概念を組み合わせることで新しい音楽を作成できます。MusicLMは、ジャンル、ジャンル、キートーンなどのユーザー入力を受け入れ、この情報を使用してユーザーの仕様に従って新しい音楽を生成します。

例は印象的です。特定のジャンル、雰囲気、さらには楽器を定義する段落の長さの説明で構成された実際の曲のように聞こえる30秒のスニペットと、「メロディックテクノ」のような単語から生じる5分間の作品があります。"

また、デモサイトには、チェロやマラカスなどの楽器の10秒のクリップ、特定のジャンルの8秒のクリップ、脱獄に適した音楽、さらには初心者のピアノ奏者と熟練者の音を依頼されたときにモデルが生成する例も紹介されています。また、「未来的なクラブ」や「アコーディオンデスメタル」などのフレーズの解釈も含まれています。

MusicLMは人間のボーカルをシミュレートすることもでき、全体的なトーンと声を正しく理解しているように見えますが、間違いなく品質があります。これを説明できる最良の方法は、音が粗いか静的であるということです。

AIが生成した音楽には、数十年前にさかのぼる長い歴史があります。ポップソングを作り、90年代のどの人間よりもバッハになりすまし、ライブパフォーマンスを伴うと信じられているシステムがあります。

最近のバージョンでは、StableDiffusionのAI画像生成エンジンを使用して、テキストコマンドをスペクトログラムに変換し、それを音楽に変換します。論文によると、MusicLMは「品質とテキストの遵守」の点で他のシステムよりも優れているだけでなく、音声を受信してメロディーを書き写すことができるという事実もあります。

その最後のビットは、おそらく研究者が出した最もクールなデモの1つです。このサイトでは、誰かが曲をハミングしたり口笛を吹いたりしている入力オーディオを再生し、モデルがそれを電子シンセリード、弦楽四重奏、ギターソロなどとしてどのように再現するかを聞くことができます。

このタイプのAIにおける他の試みと同様に、Googleは同様のテクノロジーを持つ同業他社よりもMusicLMにかなり注意を払ってきました。「現時点ではモデルをリリースする予定はありません」と、The Vergeが引用した論文は述べています。これにより、「潜在的なクリエイティブコンテンツの乱用」や盗用のリスクが生じ、文化の盗用や不実表示の可能性があります。

このテクノロジーがGoogleの楽しい音楽実験の1つにいつか登場する可能性は常にありますが、今のところ、この研究の恩恵を受けることができるのは、音楽AIシステムを構築している他の人々だけです。

Googleは、約5.500の音楽とテキストのペアを含むデータセットを公開したと述べており、他の音楽AIをトレーニングおよび評価するのに役立ちます。