Bagikan:

JAKARTA - Apple kembali mempublikasikan penelitian baru yang menunjukkan bagaimana model bahasa besar (LLM) dapat digunakan untuk menganalisis data audio dan motion (gerakan) guna memahami aktivitas pengguna dengan lebih akurat. Studi ini membuka peluang penerapan Apple Intelligence dan teknologi multimodal yang lebih canggih di iOS generasi berikutnya.

Dalam makalah berjudul “Using LLMs for Late Multimodal Sensor Fusion for Activity Recognition”, para peneliti Apple menjelaskan bahwa LLM dapat dipadukan dengan data sensor tradisional untuk meningkatkan akurasi pengenalan aktivitas, bahkan ketika data sensornya minim.

LLM tidak menerima audio mentah, melainkan deskripsi teks pendek yang dibuat oleh model audio, serta data prediksi aktivitas berbasis sensor IMU (accelerometer & gyroscope). Dengan kata lain, privasi pengguna tetap terlindungi.

Hasil Penelitian:

  • LLM mampu melakukan klasifikasi aktivitas secara zero-shot dan one-shot—tanpa pelatihan khusus.

  • Akurasi jauh melampaui peluang acak meskipun tanpa model khusus untuk aktivitas.

  • Memberikan satu contoh saja dapat meningkatkan performa model secara signifikan.

  • Pendekatan ini memungkinkan penggunaan model multimodal tanpa menambah beban memori atau komputasi.

Menggali Lebih Dalam: Dataset Ego4D

Para peneliti menggunakan Ego4D, dataset besar berisi rekaman video sudut pandang orang pertama (first-person) yang menampilkan berbagai aktivitas sehari-hari.

Mereka mengkurasi sampel berdurasi 20 detik yang mencakup 12 aktivitas, seperti:

  • menyedot debu

  • memasak

  • mencuci pakaian

  • makan

  • bermain basket

  • bermain sepak bola

  • bermain dengan hewan peliharaan

  • membaca buku

  • menggunakan komputer

  • mencuci piring

  • menonton TV

  • olahraga/angkat beban

Tujuannya adalah memberikan rentang aktivitas rumah tangga dan kebugaran yang umum terjadi.

Cara Kerja Eksperimen

  1. Audio dan data gerakan diproses oleh model kecil untuk menghasilkan:

    • teks deskripsi audio

    • label audio

    • prediksi aktivitas berbasis IMU

  2. Semua output ini kemudian diberikan ke LLM (Gemini 2.5 Pro dan Qwen 32B).

  3. Apple membandingkan dua kondisi:

    • Closed-set: model diberikan daftar 12 aktivitas

    • Open-ended: model bebas menjawab apa pun

  4. Beragam kombinasi input diuji—mulai dari hanya data audio, hanya IMU, kombinasi keduanya, hingga tambahan konteks.

Hasilnya menunjukkan bahwa LLM secara konsisten memberikan prediksi yang tepat, bahkan tanpa pelatihan khusus. 

Apple menyimpulkan bahwa pendekatan multimodal berbasis LLM ini dapat menjadi terobosan dalam:

  • analisis aktivitas,

  • pemantauan kesehatan,

  • pelacakan kebiasaan,

  • fitur keselamatan, terutama ketika data sensor tidak lengkap atau sulit diinterpretasikan.

Apple bahkan merilis data pendukung seperti segment ID Ego4D, timestamp, prompt, dan contoh one-shot agar penelitian ini bisa direplikasi oleh peneliti lain.