シェア:

ジャカルタ - メタは、さまざまなスタイルの音声作成におけるブレークスルーであるVoiceboxと呼ばれるジェネレーティブ人工知能(AI)を導入しました。しかし、同社はそれを一般に公開することに消極的です。

Voiceboxは、編集、サンプリング、具体的に訓練されていない言語スタイルの編集などの音声作成タスクを実行して、コンテキストでの学習を通じて行うことができます。

さらに、Voiceboxは高品質のオーディオクリップを生成し、事前に録音されたオーディオを編集することができます。

このツールはまた、多言語を採用し、6つの言語で音声を生成します。英語、フランス語、ドイツ語、スペイン語、ポーランド語、ポルトガル語で誰かの音声およびテキストセクションをサンプリングすると、Voiceboxはそのような言語のいずれかでテキスト読み取りを作成できます。

音声とテキストのサンプルが異なる言語である場合でも。この機能は、将来、同じ言語を使用していなくても、人々が自然で本物の方法でコミュニケーションをとるのを助けるために使用することができます。

メタは、Voiceboxはフローマッチングと呼ばれる方法に基づいており、 difusiモデルを改善することが証明されていると述べています。ただし、Metaは、災害や虐待である可能性があると主張しているため、一般に公開することはありません。

「ジェネレーティブ音声モデルには興味深いユースケースがたくさんありますが、虐待の潜在的なリスクのために、現時点ではVoiceboxモデルやコードを一般に提供していません」とMetaは6月20日火曜日に引用された公式ブログで述べています。

同社によると、Voiceboxは、明確さ(5.9%)対単語誤差率1.9%)と音声類似性(0.580対0.681)の点で、テキストから音声へのゼロショットで最新のVALL-E英語モデルを上回り、20倍高速になりました。

国境を越えたスタイル転送の場合、VoiceboxはYourTTSを上回り、平均単語誤差率を10.9%から5.2%に引き下げ、音声類似性を0.335から0.481に引き上げました。

「AIコミュニティとオープンになり、高度なAIを進歩させるために研究を共有することが重要だと考えていますが、オープン性と責任の適切なバランスも重要です」とMeta氏は述べています。


The English, Chinese, Japanese, Arabic, and French versions are automatically generated by the AI. So there may still be inaccuracies in translating, please always see Indonesian as our main language. (system supported by DigitalSiber.id)