メタは、表現の読み取りとライセンスの最小化を備えたSームレスM4T V2を作成します

ジャカルタ - 昨年8月、Metamは人工知能(AI)ベースの翻訳ツールであるSermlessM4Tを導入しました。発売からわずか3ヶ月前、メタは最新モデルを発表しました。

メタはSeamlessM4Tを更新し、第2世代(V2)と名付けました。このサービスは、メタが2つの新しい機能を組み込んでいるため、より広い翻訳ツールを備えています。

メタが最初に追加した機能は、シームレスな表現力です。このツールは、一時停止、スピーチスピード、ボーカルスタイル、感情的なトーンを通して、ささやき、悲しみ、喜びなどのスピーカーの表現を含めることができます。

このツールは、表現力豊かなブレンドとSeamlessM4T V2の基本的なモデルで作成されています。メタは、表現を読む能力をサポートするために音声処理デバイスを置き換えたと述べた。

「SIMlessM4T v2のHiFi-GANユニットをソース音声に条件付けられた表現型ユニットから音声への発電機に置き換えることで、音声転送、感情的な表現、ボーカルスタイルをシームレスにすることができます」とMetaはリリースで述べています。

Metaが追加する次の機能は、音声をテキストに変換したり、音声を音声に変換したりするための音声の自動認識であるSamlessStreamingです。このツールには、高精度で最大2秒の遅延が付属しています。

この遅延は、各言語の文の構造が異なるため、避けられません。SeamlessM4TのAIは、聞く単語と文章を翻訳する必要があるかどうかを判断するために、音声入力を研究する必要があります。

「これは、部分的なオーディオ入力に基づいて決定する、読み取れたり書いたりするポリシーを通じて行われます。それが書かれるべきかどうか、または読み取りが他の入力を待ち続けるかどうか」とメタは説明しました。

現在、SeamlessM4T V2は、音声からテキストへの変換のための約100の言語と音声から音声への変換のための36の言語をサポートしています。この翻訳サービスは、450万時間のデータで訓練されているため、言語が増える可能性があります。

シームレスコミュニケーションシリーズの新しい機能である国境を越えたコミュニケーションサービスは、GoogleとSamsungが開発した翻訳者のライバルになる可能性があります。ただし、SamlessM4T V2に一般の人々がいつアクセスできるようになるかはまだわかっていません。