雅加达-Google的最新研究现在允许在视频通话中更改手语。这无疑将使残疾人更容易。

Google开发了一个实时手语检测引擎,可以识别某人何时开始使用手语以及何时结束(不仅检测声音)。

根据周一引用的TechCrunch报告,该系统可以在极短的延迟时间内实现。延迟对手语检测有很大影响,因此视频不会延迟或质量下降。因此,Google打造了一个轻巧可靠的系统。

该系统首先运行一个称为PoseNet的视频模型,该模型可以估计身体和四肢的位置。

这种简化的视觉信息(基本上是线条)被发送到一个系统,该系统使用德国手语对来自人的视频的姿势数据进行训练,并将实时图像与所得到的机芯线条视图进行比较。

这个简单的过程已经可以在预测某人是否使用手语方面达到80%的准确性,并且通过一些其他优化,它可以达到91.5%的准确性。

与大多数视频通话中“主动讲话”的检测方法只能分辨出某人是否在说话,甚至无法分辨咳嗽相比,这些数字都还不错。

Google视频翻译手语(Google文档)

为了在不向呼叫添加“有人正在使用手语”信号的情况下工作,系统使用了巧妙的技巧,即使用虚拟音频源来产生20kHz的音调,该音调超出了人类的听觉范围,但被计算机的注意音频系统。

每当有人使用手语时都会生成此信号,从而使语音检测算法“认为”他们大声讲话。目前,该系统仍处于演示阶段。


The English, Chinese, Japanese, Arabic, and French versions are automatically generated by the AI. So there may still be inaccuracies in translating, please always see Indonesian as our main language. (system supported by DigitalSiber.id)