シェア:

ジャカルタ-Googleの最近の調査により、ビデオ通話で手話の言語を変更できるようになりました。これは確かに障害を持つ人々にとってそれを容易にするでしょう。

Googleは、誰かが手話を始めたときと終わったときを知ることができるリアルタイムの手話検出エンジンを開発しました(音を検出するだけではありません)。

月曜日に引用されたTechCrunchのレポートによると、このシステムはほとんど待ち時間なしで可能だという。レイテンシーは手話の検出に大きな影響を与えるため、ビデオの遅延や品質の低下はありません。そのため、Googleは軽量で信頼性の高いシステムを作成しています。

システムは最初に、体と手足の位置を推定するPoseNetと呼ばれるビデオモデルを実行します。

この簡略化された視覚情報(基本的に線付き)は、ドイツ手話を使用している人々のビデオからのポーズデータでトレーニングされたシステムに送信され、ライブ画像を動きの結果の線ビューと比較します。

この単純なプロセスにより、誰かが手話を使用しているかどうかを予測する際に、すでに80%の精度が得られ、いくつかの追加の最適化により、最大91.5%の精度が得られます。

ほとんどのビデオ通話で「能動態」を検出すると、誰かが話しているかどうかしかわからず、咳を区別することすらできないのと比較すると、数字はかなり良好です。

グーグルビデオは手話を翻訳します(グーグルドキュメント)

「誰かが手話を使用しています」という信号を通話に追加せずに動作するために、システムは巧妙なトリックを使用して、仮想オーディオソースを使用して20kHzのトーンを生成します。これは、人間の可聴範囲外ですが、コンピューターによって認識されます。オーディオシステム。

この信号は、人が手話を使用するたびに生成され、音声検出アルゴリズムに、彼らが声を出して話していると「考え」させます。現在、システムはまだデモ段階にあります。


The English, Chinese, Japanese, Arabic, and French versions are automatically generated by the AI. So there may still be inaccuracies in translating, please always see Indonesian as our main language. (system supported by DigitalSiber.id)