Google视频通话可以使用手语

雅加达-Google的最新研究现在允许在视频通话中更改手语。这无疑将使残疾人更容易。

Google开发了一个实时手语检测引擎,可以识别某人何时开始使用手语以及何时结束(不仅检测声音)。

根据周一引用的TechCrunch报告,该系统可以在极短的延迟时间内实现。延迟对手语检测有很大影响,因此视频不会延迟或质量下降。因此,Google打造了一个轻巧可靠的系统。

该系统首先运行一个称为PoseNet的视频模型,该模型可以估计身体和四肢的位置。

这种简化的视觉信息(基本上是线条)被发送到一个系统,该系统使用德国手语对来自人的视频的姿势数据进行训练,并将实时图像与所得到的机芯线条视图进行比较。

这个简单的过程已经可以在预测某人是否使用手语方面达到80%的准确性,并且通过一些其他优化,它可以达到91.5%的准确性。

与大多数视频通话中“主动讲话”的检测方法只能分辨出某人是否在说话,甚至无法分辨咳嗽相比,这些数字都还不错。

Google视频翻译手语(Google文档)

为了在不向呼叫添加“有人正在使用手语”信号的情况下工作,系统使用了巧妙的技巧,即使用虚拟音频源来产生20kHz的音调,该音调超出了人类的听觉范围,但被计算机的注意音频系统。

每当有人使用手语时都会生成此信号,从而使语音检测算法“认为”他们大声讲话。目前,该系统仍处于演示阶段。