メタは、テキストからビデオを作ることができる技術、メイク・ア・ビデオを導入

ジャカルタ - メタのテキストまたは画像の指示から新しいビデオコンテンツを作成できるAI搭載のビデオジェネレータのメイクアビデオが発売されました。

これらのツールは、DALL-EやStable Diffusionなどの既存の画像合成ツールに似ており、既存のビデオのバリエーションを作成できます。

名前が示すように、Make-A-Videoは、ユーザーがテキスト命令を短くて高品質のビデオクリップに変換できる新しいAIシステムです。

Metaは発表の中で、若いカップルが降り注ぐ雨の中を歩いているときや、熊人形の絵の肖像画など、テキストから制作されたビデオの例を示しています。

機能的には、Make-A-Videoは昨年7月にMetaによって発売されたMake-A-Sceneと同じように機能し、自然言語処理と生成ニューラルネットワークの組み合わせに依存して非視覚的リードを画像に変換し、異なる形式でコンテンツを描画するだけです。

「私たちの直感は単純で、世界がどのようなもので、それがペアのテキストデータでどのように記述されているか、そして監視のないビデオ映像から世界がどのように動くかを学びます」とメタ研究チームは昨日発表された研究論文に書いています。

これにより、研究チームは、美的多様性、幻想的な描写などの多様性を維持しながら、今日の画像作成モデルからの美的多様性、幻想的な描写などの多様性を維持しながら、Make-A-Video モデルのトレーニングにかかる時間を短縮し、ペアのテキストビデオデータの必要性を排除することができます。

メイク・ア・ビデオは、静的なソースから写真を撮り、それらを消滅させることもできます。たとえば、ウミガメの写真は、AIモデルを介して処理した後、短いビデオで泳いでいるのを見ることができます。

Make-A-Videoの背後にある主な技術と、一部の専門家が考えるよりも早く来る理由は、テキストから画像への合成で既存の仕事を構築することです。

「空間解像度、テキストへの忠誠心、品質など、あらゆる面で、Make-A-Videoは定性的および定量的尺度によって定義されるように、テキストからビデオへの生成に新しいものを設定します」と研究者は述べています。

ほとんどのAIメタ研究と同様に、Make-A-Videoはオープンソースプロジェクトとしてリリースされており、「私たちはこれらの研究と世代別AIの結果をコミュニティとオープンに共有してフィードバックを得ており、この成長する技術へのアプローチを完成させ、開発する責任を持つAIフレームワークを引き続き使用します」とMetaのCEOであるMark Zuckerberg氏は述べています。

メタは、Make-A-Videoがいつ、どのように公開されるか、誰がそれにアクセスできるかについて、何の発表もしていない。しかし、同社は、人々が将来それを試すことに興味があるならば、人々が記入することができる登録フォームを提供しました。