Google视频通话可以使用手语

雅加达-Google的最新研究现在允许在视频通话中更改手语。这无疑将使残疾人更容易。

Google开发了一个实时手语检测引擎，可以识别某人何时开始使用手语以及何时结束（不仅检测声音）。

根据周一引用的TechCrunch报告，该系统可以在极短的延迟时间内实现。延迟对手语检测有很大影响，因此视频不会延迟或质量下降。因此，Google打造了一个轻巧可靠的系统。

该系统首先运行一个称为PoseNet的视频模型，该模型可以估计身体和四肢的位置。

这种简化的视觉信息（基本上是线条）被发送到一个系统，该系统使用德国手语对来自人的视频的姿势数据进行训练，并将实时图像与所得到的机芯线条视图进行比较。

这个简单的过程已经可以在预测某人是否使用手语方面达到80％的准确性，并且通过一些其他优化，它可以达到91.5％的准确性。

与大多数视频通话中“主动讲话”的检测方法只能分辨出某人是否在说话，甚至无法分辨咳嗽相比，这些数字都还不错。

Google视频翻译手语（Google文档）

为了在不向呼叫添加“有人正在使用手语”信号的情况下工作，系统使用了巧妙的技巧，即使用虚拟音频源来产生20kHz的音调，该音调超出了人类的听觉范围，但被计算机的注意音频系统。

每当有人使用手语时都会生成此信号，从而使语音检测算法“认为”他们大声讲话。目前，该系统仍处于演示阶段。