雅加达——苹果公司再次发布了一项新研究,该研究表明,大规模语言模型 (LLM) 如何用于分析音频和运动数据,以更准确地理解用户的活动。这项研究为苹果智能和下一代 iOS 中更高级的多模态技术铺平了道路。
在论文《使用 LLM 进行活动识别中的后期多传感器融合》中,苹果公司的研究人员解释说,即使传感器数据很少,也可以将 LLM 与传统传感器数据结合起来,以提高活动识别准确性。
LLM 不接受原始音频,而是接受音频模型所创建的简短文本描述,以及基于 IMU 传感器 (加速度计和陀螺仪) 的活动预测数据。换句话说,用户的隐私仍然受到保护。
LLM 能够在零次训练和一次训练的情况下进行活动分类——无需专门的训练。
准确性远远超过随机机会,即使没有活动模型。
仅仅提供一个例子就能显著提高模型的性能。
这种方法可以利用多模态模型,而不会增加内存或计算负担。
研究人员使用 Ego4D,这是一个包含第一人称视频记录的大型数据集,展示了各种日常活动。
他们制作了 20 秒的样本,涵盖了 12 种活动,例如:
吸尘器
烹饪
洗衣服
吃
打篮球
踢足球
与宠物一起玩耍
阅读书籍
使用电脑
洗碗
看电视
运动/举重
其目的是提供一个普遍的家庭活动和健身范围。
声音和运动数据由小型模型处理,以产生:
音频描述文本
音频标签
基于 IMU 的活动预测
所有这些输出都提供给 LLM(Gemini 2.5 Pro 和 Qwen 32B)。
苹果公司比较了两种情况:
封闭式:给模型提供 12 个活动列表
开放式:模型可以回答任何问题
我们测试了各种输入组合,从仅有音频数据、仅有 IMU、两者结合到增加上下文。
结果表明,即使没有接受过专门的培训,LLM 也能始终如一地做出准确的预测。
苹果公司总结称,这种基于 LLM 的多模态方法可以成为以下方面的突破:
活动分析
健康监测
习惯跟踪,
安全功能,尤其是在传感器数据不完整或难以解释的情况下。
苹果甚至发布了 Ego4D ID、时间戳、提示和单次样本等支持数据,以便其他研究人员可以复制这项研究。
The English, Chinese, Japanese, Arabic, and French versions are automatically generated by the AI. So there may still be inaccuracies in translating, please always see Indonesian as our main language. (system supported by DigitalSiber.id)