Une recherche de l'Université d'Innsbruck en Autriche révèle les faiblesses du chatGPT dans la compréhension du temps
JAKARTA - Une équipe de chercheurs de l’Université d’Innsbruck en Autriche a développé une méthode pour déterminer à quel point les systèmes d’intelligence artificielle (IA) peuvent comprendre « la validité opérationnelle », un paramètre qui peut avoir un impact significatif sur l’utilisation de produits génératifs d’IA tels que chatGPT dans le secteur de la fintech.
La validité verbale se réfère à la pertinence d’une déclaration avec d’autres déclarations au fil du temps. En substance, cela se réfère à la valeur basée sur le temps de la déclaration compilée.
Un AI évalué en fonction de sa capacité à prédire la validité orale sera fourni par une série de déclarations et invité à choisir le plus étroitement lié de tout le temps.
Dans un récent article de recherche pré-imprimé intitulé « Prévision du changement de validité temporaire », Georg Wenzel et Adam Jatowt ont utilisé des exemples de déclarations dans lesquelles quelqu'un aurait lu un livre dans le bus.
Dans ce cas, la déclaration contextuelle la plus valide est « Je ne reste que quelques pages, puis je terminai ». Parce que la déclaration cible montre que les passagers de l’autobus lisent actuellement un livre, les deux autres déclarations sont considérées comme non pertinentes.
Les chercheurs ont créé un ensemble de données étiqueté d’exemples de formations, qu’ils utilisent pour construire des tâches de comparative pour les modèles de langues majeures (LLM). Ils ont choisi chatGPT comme modèle de base pour le test en raison de sa popularité parmi les utilisateurs et ont constaté que sa performance était inférieure à la norme par rapport aux modèles moins courants.
« Le CHATGPT est inclus dans le modèle à faible performance, cohérent avec d’autres recherches sur la compréhension des TCS. Ses pénuries peuvent être causées par une approche d’apprentissage peu performante et un manque de connaissances sur les caractéristiques spécifiques des ensembles de données », ont déclaré les chercheurs.
Cela montre que les situations dans lesquelles la validité intermédiaire jouent un rôle dans la détermination de la faisabilité ou de l’exactitude, telles que la production d’articles d’information ou l’évaluation des marchés financiers, sont susceptibles d’être mieux gérées par des modèles d’IA ciblés que des services plus généraux tels que chatGPT.
Les chercheurs ont également souligné que les expériences avec la prévision de changements de valeur opérationnelle au cours du cycle de formation en droits de l’homme ont le potentiel de produire un score plus élevé sur les tâches de comparative des changements opérationnels.
Bien que le document ne discuterait pas spécifiquement des implications en dehors de l’expérience elle-même, l’une des limitations actuelles du système génératif d’IA est le manque de capacité à faire la différence entre les événements passés et les présent dans un corps littéraire.
Apprendre à ces systèmes à déterminer les déclarations les plus pertinentes à travers le corps, avec des facteurs d’actualité déterminants, peut révolutionner la capacité des modèles d’IA à créer de fortes prédictions en temps réel dans des secteurs à grande échelle tels que le marché de la cryptographie et les actions.