苹果公司最新研究发现, LLM 可以从音频和运动数据中推断出用户活动

雅加达——苹果公司再次发布了一项新研究,该研究表明,大规模语言模型 (LLM) 如何用于分析音频和运动数据,以更准确地理解用户的活动。这项研究为苹果智能和下一代 iOS 中更高级的多模态技术铺平了道路。

在论文《使用 LLM 进行活动识别中的后期多传感器融合》中,苹果公司的研究人员解释说,即使传感器数据很少,也可以将 LLM 与传统传感器数据结合起来,以提高活动识别准确性。

LLM 不接受原始音频,而是接受音频模型所创建的简短文本描述,以及基于 IMU 传感器 (加速度计和陀螺仪) 的活动预测数据。换句话说,用户的隐私仍然受到保护。

LLM 能够在零次训练和一次训练的情况下进行活动分类——无需专门的训练。

准确性远远超过随机机会,即使没有活动模型。

仅仅提供一个例子就能显著提高模型的性能。

这种方法可以利用多模态模型,而不会增加内存或计算负担。

研究人员使用 Ego4D,这是一个包含第一人称视频记录的大型数据集,展示了各种日常活动。

他们制作了 20 秒的样本,涵盖了 12 种活动,例如:

吸尘器

烹饪

洗衣服

打篮球

踢足球

与宠物一起玩耍

阅读书籍

使用电脑

洗碗

看电视

运动/举重

其目的是提供一个普遍的家庭活动和健身范围。

声音和运动数据由小型模型处理,以产生:

音频描述文本

音频标签

基于 IMU 的活动预测

所有这些输出都提供给 LLM(Gemini 2.5 Pro 和 Qwen 32B)。

苹果公司比较了两种情况:

封闭式:给模型提供 12 个活动列表

开放式:模型可以回答任何问题

我们测试了各种输入组合,从仅有音频数据、仅有 IMU、两者结合到增加上下文。

结果表明,即使没有接受过专门的培训,LLM 也能始终如一地做出准确的预测。

苹果公司总结称,这种基于 LLM 的多模态方法可以成为以下方面的突破:

活动分析

健康监测

习惯跟踪,

安全功能,尤其是在传感器数据不完整或难以解释的情况下。

苹果甚至发布了 Ego4D ID、时间戳、提示和单次样本等支持数据,以便其他研究人员可以复制这项研究。