ジャカルタ-Appleは、大口語モデル(LLM)を使用して音声およびモーションデータを分析し、ユーザーの活動をより正確に理解する方法を示す新しい研究を再び発表しました。この研究は、次世代のiOSにApple Intelligenceとより高度なマルチモーダルテクノロジーを実装する機会を開きます。
Appleの研究者は、「活動認識のための遅い多元センサー融合のためのLLMを縮小する」と題する論文で、LLMはセンサーデータが最小限であっても、活動認識の精度を向上させるために従来のセンサーデータと組み合わせることができると説明しています。
LLMは生のオーディオを受け取るのではなく、オーディオモデルによって作成された短いテキストの説明と、IMUセンサーベースの活動予測データ(加速度計とサイコスコープ)を受け取ります。言い換えれば、ユーザーのプライバシーは保護されたままです。
LLMは、特別なトレーニングなしで、ゼロショットとワンショットで活動を分類することができます。
精度は、アクティビティのための特別なモデルがなくても、ランダムな機会をはるかに超えています。
1つの例だけでも、モデルのパフォーマンスが大幅に向上する可能性があります。
このアプローチにより、メモリやコンピューティングの負荷を増やさずにマルチモーダルモデルを使用できます。
研究者らは、さまざまな日常活動を特集した一人称ビデオ映像を含む大規模なデータセットである ego4Dを使用しました。
彼らは12の活動を含む20秒のサンプルをキュレーションしました。
ほこりを吸い上げる
調理
洗濯
食べる
野球
サッカーをする
ペットと遊ぶ
本を読む
コンピュータを使用する
皿洗浄
テレビを見る
スポーツ/ウェイトリフティング
目標は、一般的な家庭活動とフィットネスの範囲を提供することです。
オーディオとジェスチャーデータは、次のように処理するために小型モデルによって処理されます。
音声説明テキスト
オーディオラベル
IMUベースの活動の予測
これらすべての出力はLLMに提供されます(Gemini 2.5 ProおよびQwen 32B)。
Appleは2つの条件を比較します:
閉じたセット:モデルには12のアクティビティのリストが与えられています
オープンエンド:何でも自由に答えるモデル
さまざまな入力組み合わせがテストされ、オーディオデータのみ、IMUのみ、2つの組み合わせから追加のコンテキストまで。
この結果は、LLMが特別な訓練がなくても、一貫して正しい予測を提供していることを示しています。
Appleは、LLMベースのこのマルチモーダルアプローチは、次の点で画期的なものになる可能性があると結論付けています。
活動の分析、
健康監視、
習慣の追跡、
安全機能、特にセンサーデータが不完全または解釈が困難な場合。
Appleは、この研究を他の研究者が再現できるように、セグメントID ego4D、タイムスタンプ、プロンプト、ワンショットサンプルなどのサポートデータもリリースしました。
The English, Chinese, Japanese, Arabic, and French versions are automatically generated by the AI. So there may still be inaccuracies in translating, please always see Indonesian as our main language. (system supported by DigitalSiber.id)