ina, un autre type d'ai, qui est plus fréquemment hallucinée.
JAKARTA –ChatGPT o3 et o 4-mini sont les derniers modèles d’intelligence artificielle (IA) d’OpenAI. Bien qu’être prétendument le modèle de réflexion le plus sophistiqué, les deux sont plus souvent halusinés que les autres modèles OpenAI.
anisation est l’une des maladies qui sont évitées par les développeurs d’IA, y compris OpenAI. Lorsque vous connaissez cela, les modèles d’IA tendront à alphabétiser plutôt que de fournir une réponse appropriée et à la base des besoins des utilisateurs.
, jusqu’à présent, l’halusinance reste le plus grand défi de l’IA parce qu’elle a un impact direct sur le système et les performances de son modèle. Bien que la plupart des modèles d’IA aient réussi à surmonter ce problème, l’O3 et o 4-mini d’OpenAI n’ont pas réussi à le faire.
annés par les résultats des tests internes d’OpenAI, ces deux modèles de réflexion sont plus souvent halusinés par rapport à o1, o1-mini et o1-mini. Par rapport aux modèles non lancés d’OpenAI, le GPT-4o a en fait de meilleurs résultats de test.
est assez préoccupant pour le fait que OpenAI ne connaissait pas les causes de l’O3 et de l’O4 mini est souvent hallucinée. La société a noté qu’elle « avait besoin de plus d’entraînement » pour découvrir la cause de la subtilité qui s’est produite.
d’après les résultats des tests OpenAI, o3 a été hallucinée jusqu’à 33% lorsqu’il a répondu aux questions dans PersonQA, une référence fiable par l’entreprise. Pendant ce temps, l’o 4-mini a un pourcentage de référence inférieur, qui est de 48%.
an, il n'y a que de nombreuses autres alertes que les modèles de réflexion précédents. La raison en est que o1 et o3 mini n'ont obtenu que des points de 16% et 14,8% dans les tests de référence. C’est deux fois inférieur aux modèles o3 et o1-mini, respectivement.
Transluce, citant TechCrunch, suggère également des résultats similaires au test OpenAI. Le laboratoire de recherche d’IA à but non lucratif a constaté que o3 prenait souvent des actions pour fournir des réponses aux utilisateurs.
al.com « Notre hypothèse est que le type d’apprentissage renforcé utilisé pour les modèles de série peut renforcer les problèmes qui sont généralement surmontés (mais pas complètement éliminés) par des pistes post-entraînement standard », a déclaré Neil Chowdhury, chercheur à transluce et ancien employé d’OpenAI.