ジャカルタ-Googleは、1,000の異なる言語をサポートする人工知能(AI)言語モデルを構築することを計画しており、このテクノロジーは、数か月以内の毎年恒例のI / Oイベント中に発売されると噂されています。
公開する前に、Googleは、同社が目標を実現するための最初のステップとして説明しているシステムであるユニバーサルスピーチモデル(USM)に関する詳細情報を共有しました。
テクノロジーの巨人は、USMを、1,200万時間の音声と300以上の言語で280億の文でトレーニングされた20億のパラメーターを備えた最先端の音声モデルのコレクションとして説明しています。
これまでのところ、USMは100以上の言語をサポートしており、より広範なシステムを構築するための基盤として機能します。
「ラベルのない大規模な多言語データセットを使用してモデルエンコーダーを事前にトレーニングし、ラベルの付いた小さなデータセットを改良することで、過小評価されている言語を認識できることを示しました」とGoogleはブログ投稿で述べています。
「さらに、私たちのモデルトレーニングプロセスは、新しい言語やデータに適応するのに効果的です」と彼は付け加えました。
USMはYouTubeでクローズドキャプションを作成するために使用されており、ウィスパーまたは自動音声認識(ASR)もサポートしていることが知られています。
英語、中国語、アムハラ語、セブアノ語、アッサム語などの言語を自動的に検出して翻訳します。伝えられるところによると、Metaはまだ初期段階にある同様のAI翻訳ツールに取り組んでいます。
「音声翻訳では、CoVoST(大規模な多言語音声テキスト翻訳コーパス)データセットでUSMを改良しました。私たちのモデルには、チャンネルの第2段階までのテキストが含まれており、限られた教師付きデータで最先端の品質を実現しています」とGoogleは述べています。
Googleは、モデル全体のパフォーマンス評価で、リソースの可用性に基づいてCoVoSTデータセットの言語を高、中、低に分類し、各セグメントのBLEUスコア(高いほど良い)を計算します。USMは、すべてのセグメントでウィスパーを上回りました。
3月8日水曜日に引用されたThe Vergeのレポートによると、このテクノロジーの目標の1つは、昨年のI / OイベントでGoogleが披露したコンセプトのような拡張現実(AR)メガネであり、画面に表示されるリアルタイムの翻訳を検出して提供できます。私の目の前で。
「USMの開発は、世界中の情報を整理し、普遍的にアクセスできるようにするというGoogleの使命を実現するための重要な取り組みです。USMの基本モデルアーキテクチャとトレーニングパイプラインは、音声モデリングを次の1.000言語に拡張するために構築できる基盤を構成すると信じています」とGoogleは述べています。
The English, Chinese, Japanese, Arabic, and French versions are automatically generated by the AI. So there may still be inaccuracies in translating, please always see Indonesian as our main language. (system supported by DigitalSiber.id)