苹果公司最新研究发现, LLM 可以从音频和运动数据中推断出用户活动
雅加达——苹果公司再次发布了一项新研究,该研究表明,大规模语言模型 (LLM) 如何用于分析音频和运动数据,以更准确地理解用户的活动。这项研究为苹果智能和下一代 iOS 中更高级的多模态技术铺平了道路。
在论文《使用 LLM 进行活动识别中的后期多传感器融合》中,苹果公司的研究人员解释说,即使传感器数据很少,也可以将 LLM 与传统传感器数据结合起来,以提高活动识别准确性。
LLM 不接受原始音频,而是接受音频模型所创建的简短文本描述,以及基于 IMU 传感器 (加速度计和陀螺仪) 的活动预测数据。换句话说,用户的隐私仍然受到保护。
LLM 能够在零次训练和一次训练的情况下进行活动分类——无需专门的训练。
准确性远远超过随机机会,即使没有活动模型。
仅仅提供一个例子就能显著提高模型的性能。
这种方法可以利用多模态模型,而不会增加内存或计算负担。
研究人员使用 Ego4D,这是一个包含第一人称视频记录的大型数据集,展示了各种日常活动。
他们制作了 20 秒的样本,涵盖了 12 种活动,例如:
吸尘器
烹饪
洗衣服
吃
打篮球
踢足球
与宠物一起玩耍
阅读书籍
使用电脑
洗碗
看电视
运动/举重
其目的是提供一个普遍的家庭活动和健身范围。
声音和运动数据由小型模型处理,以产生:
音频描述文本
音频标签
基于 IMU 的活动预测
所有这些输出都提供给 LLM(Gemini 2.5 Pro 和 Qwen 32B)。
苹果公司比较了两种情况:
封闭式:给模型提供 12 个活动列表
开放式:模型可以回答任何问题
我们测试了各种输入组合,从仅有音频数据、仅有 IMU、两者结合到增加上下文。
结果表明,即使没有接受过专门的培训,LLM 也能始终如一地做出准确的预测。
苹果公司总结称,这种基于 LLM 的多模态方法可以成为以下方面的突破:
活动分析
健康监测
习惯跟踪,
安全功能,尤其是在传感器数据不完整或难以解释的情况下。
苹果甚至发布了 Ego4D ID、时间戳、提示和单次样本等支持数据,以便其他研究人员可以复制这项研究。