d'Apple : Une nouvelle étude révèle que les droits de l'homme peuvent deviner les activités des utilisateurs à partir de données audio et de mouvement

ARTA - Apple a publié à nouveau une nouvelle recherche montrant comment les modèles de grande langue (LLM) peuvent être utilisés pour analyser les données audio et de mouvement (mouvement) pour comprendre plus de manière plus précise les activités des utilisateurs. L’étude ouvre les possibilités de la mise en œuvre d’une technologie d’intelligence d’Apple et multimodale plus avancée sur la prochaine génération d’iOS.

, dans un article intitulé “UsingLLMs for Late Sensor Multimodal Fusion for Activity Recognition,” les chercheurs d’Apple ont expliqué que le droit d’autonomisation peut être combiné avec les données de capteurs traditionnels pour améliorer la précision de la reconnaissance de l’activité, même si les données de capture sont minimales.

n’accepte pas l’audio brute, mais une décription texte courte créée par des modèles audio, ainsi que des données de prévision de l’activité basées sur des capteurs IMU (accéléromètres & bér scopes). En d’autres termes, la vie privée des utilisateurs reste protégée.

est en mesure de classer les activités à zéro et à un pied - sans formation spéciale.

castique dépasse bien les possibilités aléatoires sans modèles spéciaux pour l’activité.

rée par un seul exemple peut améliorer considérablement les performances des modèles.

ronyme. Il permet d'utiliser des modèles multimodaux sans ajouter à la mémoire ou au calcul.

4D, un grand ensemble de données, qui contient des enregistrements en première personne qui présentent des activités quotidiennes.

rénal ont calculé des échantillons de 20 secondes comprenant 12 activités, telles que:

re de poussière

re cuisinière

che de bain

ir

ar au basketball

ar au football

ar avec des animaux de compagnie

ir un livre

en utilisant un ordinateur

re de la vaisselle

eriez

/ soulèvement des poursuites

rénal, qui vise à fournir une gamme d’activités ménagères et de condition physique générales.

in, qui est utilisé pour produire des données audio et de mouvement, utilisées par des modèles petits pour produire :

ronyme : texte de légende audio

ine d'étiquette audio

prédiction de l’activité de l’UEM

na, ce qui est de plus en plus, cité par les ressources humaines, les ressources humaines et les ressources humaines, les ressources humaines, les ressources humaines, les ressources humaines, les ressources humaines, les ressources humaines, les ressources humaines, les ressources humaines, les ressources humaines, les ressources humaines, les ressources humaines, les ressources humaines, les ressources humaines, les ressources humaines, les ressources humaines, les ressources humaines, les ressources humaines, les ressources humaines, les ressources humaines, les ressources humaines, les ressources humaines, les ressources humaines, les ressources humaines, les ressources humaines, les ressources humaines, les ressources humaines, les ressources humaines, les ressources humaines, les ressources humaines, les ressources humaines, les ressources humaines, les ressources humaines, les ressources humaines et les ressources humaines, les ressources humaines, les ressources humaines, les ressources humaines, etc).

ronyme :

: clôture : une liste de 12 activités

Open End: un modèle libre pour n'importe quoi!

ronyme : une variété de combinaisons d'entrée sont testées – allant de uniquement les données audio, uniquement l'UEM, une combinaison des deux, à un contexte supplémentaire.

qui montre que les ressources humaines fournissent systématiquement des prévisions appropriées, même sans formation spéciale.

Apple conclut que cette approche multimodale fondée sur les droits de l’homme pourrait être une percée dans ce sens :

analyse de l'activité,

re de santé,

celiers,

de sécurité, surtout lorsque les données de capture sont incomplètes ou difficiles à interpréter.

Apple a même publié des données de soutien telles que le segment ID ego4D, le timestamp, le prompt et les exemples de fois afin que la recherche puisse être reproduite par d’autres chercheurs.