Studi Baru Apple Ungkap LLM Bisa Menebak Aktivitas Pengguna dari Audio dan Data Gerak

JAKARTA - Apple kembali mempublikasikan penelitian baru yang menunjukkan bagaimana model bahasa besar (LLM) dapat digunakan untuk menganalisis data audio dan motion (gerakan) guna memahami aktivitas pengguna dengan lebih akurat. Studi ini membuka peluang penerapan Apple Intelligence dan teknologi multimodal yang lebih canggih di iOS generasi berikutnya.

Dalam makalah berjudul “Using LLMs for Late Multimodal Sensor Fusion for Activity Recognition”, para peneliti Apple menjelaskan bahwa LLM dapat dipadukan dengan data sensor tradisional untuk meningkatkan akurasi pengenalan aktivitas, bahkan ketika data sensornya minim.

LLM tidak menerima audio mentah, melainkan deskripsi teks pendek yang dibuat oleh model audio, serta data prediksi aktivitas berbasis sensor IMU (accelerometer & gyroscope). Dengan kata lain, privasi pengguna tetap terlindungi.

Menggali Lebih Dalam: Dataset Ego4D

Para peneliti menggunakan Ego4D, dataset besar berisi rekaman video sudut pandang orang pertama (first-person) yang menampilkan berbagai aktivitas sehari-hari.

Mereka mengkurasi sampel berdurasi 20 detik yang mencakup 12 aktivitas, seperti:

menyedot debu
memasak
mencuci pakaian
makan
bermain basket
bermain sepak bola
bermain dengan hewan peliharaan
membaca buku
menggunakan komputer
mencuci piring
menonton TV
olahraga/angkat beban

Tujuannya adalah memberikan rentang aktivitas rumah tangga dan kebugaran yang umum terjadi.

Cara Kerja Eksperimen

Audio dan data gerakan diproses oleh model kecil untuk menghasilkan:
- teks deskripsi audio
- label audio
- prediksi aktivitas berbasis IMU
Semua output ini kemudian diberikan ke LLM (Gemini 2.5 Pro dan Qwen 32B).
Apple membandingkan dua kondisi:
- Closed-set: model diberikan daftar 12 aktivitas
- Open-ended: model bebas menjawab apa pun
Beragam kombinasi input diuji—mulai dari hanya data audio, hanya IMU, kombinasi keduanya, hingga tambahan konteks.

Hasilnya menunjukkan bahwa LLM secara konsisten memberikan prediksi yang tepat, bahkan tanpa pelatihan khusus.

Apple menyimpulkan bahwa pendekatan multimodal berbasis LLM ini dapat menjadi terobosan dalam:

analisis aktivitas,
pemantauan kesehatan,
pelacakan kebiasaan,
fitur keselamatan, terutama ketika data sensor tidak lengkap atau sulit diinterpretasikan.

Apple bahkan merilis data pendukung seperti segment ID Ego4D, timestamp, prompt, dan contoh one-shot agar penelitian ini bisa direplikasi oleh peneliti lain.

Tag: apple artificial intelligence siri