メタがボイチェボックス、オーディオのための生成AIを生み出す

ジャカルタ - メタはオーディオ用人工知能(AI)を発信したばかりです。Voiceboxと呼ばれるこの技術は、ユーザーがメタバース、別名仮想世界で対話することを容易にします。

Voiceboxは、編集、サンプリング、具体的に訓練されていない言語スタイルの編集などの音声作成タスクを実行して、コンテキストでの学習を通じて行うことができます。

さらに、Voiceboxは高品質のオーディオクリップを生成し、事前に録音されたオーディオを編集することができます。

たとえば、コンテンツとオーディオスタイルを維持しながら、車のクラクションや犬のギャングの音を鳴らします。メタの新しいAIモデルは、多言語を採用し、6つの言語で音声を生成します。

「将来的には、Voiceboxのような多目的ジェネレーティブAIモデルは、メタバースの仮想アシスタントや非プレイヤーキャラクターに自然に聞こえる音を提供することができます」とMetaは6月17日土曜日に引用された公式ブログで述べています。

Voiceboxを使用すると、視覚障害者は、AIが声で読んだ友人からの書面によるメッセージを聞き、ビデオ用のオーディオトラックを簡単に作成および編集できます。

以下でVOIがVoiceboxの機能を概説しています。

文脈におけるテキスト・ツー・スピーチの合成

Voiceboxは、2秒の短いオーディオサンプルを使用して、オーディオスタイルを照合し、テキストから音声への作成に使用できます。

スピーチの編集とデラウの削減

この新しいAIツールは、乱闘によって中断された音声の一部を再作成したり、音声全体を再録音する必要なしに誤解された単語を置き換えることができます。

たとえば、ユーザーは犬のしゃがみによって中断される音声セグメントを識別したり、切断したり、音声編集用の削除器など、Voiceboxにセグメントを再作成するように指示したりできます。

言語横断的なスタイルの転送

Voiceboxはまた、多言語を採用し、6つの言語で音声を生成します。英語、フランス語、ドイツ語、スペイン語、ポーランド語、ポルトガル語の個人の音声とテキスト部分のサンプルを採取すると、新しいAIツールはそのような言語の1つでテキスト読み取りを生成できます。

音声とテキストのサンプルが異なる言語である場合でも。この機能は、将来、同じ言語を使用していなくても、人々が自然で本物の方法でコミュニケーションをとるのを助けるために使用することができます。

多様な音声サンプリング

多様なデータから学ぶVoiceboxは、現実世界や上記の6つの言語で人々がどのように話すかをよりよく表すスピーチを生成することができます。