ARTA - OpenAI a lancé le modèle de base de l’Intelligence artificielle (IA) o3 en décembre 2024. Après plusieurs mois de son lancement, ce modèle d’IA est devenu une préoccupation en raison des résultats des tests de référence de tiers.
O3 est donc considéré comme meilleur que Grok 3. Pour prouver ses capacités, OpenAI a déclaré qu’o3 était en mesure de répondre à plus d’un quart des questions de FrontierMath, une référence des mathématiques.
, ce résultat, bien sûr, beaucoup mieux que ses concurrents qui n’ont réussi à maîtriser que 2% de FrontierMath. Dans la diffusion en direct d’OpenAI lors du lancement d’o3, la société a également déclaré que son référence d’IA atteignait plus de 25%.
cependant, les résultats des tests d’Epoch AI ont en fait montré des résultats différents. L’institut de recherche derrière FrontierMath a partagé les résultats du test o3 le 18 avril 2025. Le score obtenu par le modèle d’IA n’était que de 10%, soit 15 pour cent inférieur à ce promis.
OpenAI pourrait ne pas avoir menti sur ses résultats de comparaison parce que le score d’Epoch a donné est un score de limite inférieure enregistré par OpenAI. Epoch a également expliqué que les différences dans les résultats de cet essai pourraient être causées par une version différente de FrontierMath.
rénal. « La différence entre nos résultats et les résultats d’OpenAI pourrait se produire parce qu’OpenAI évalue avec une base interne plus forte, utilisant plus de temps de test, ou parce que les résultats sont exécutés sur différents sous-sets FrontierMath », a écrit Epoch dans le rapport de test o3.
d’autre part, une organisation qui a participé à des essais de pré-ralliement o3 a acheté en fait les résultats des essais d’Epoch. L’organisation appelée ARC Prize Foundation, citant TechCrunch, a déclaré que le modèle public o3 en circulation aujourd’hui était différent.
, ce qui signifie que les résultats des tests Epoch n’ont connu aucune défaillance. D’autre part, ARC Prize a allumé OpenAI parce que les résultats du test o3 alors qu’il était encore pré-liqué et après sa sortie ont effectivement vaincu la différence.
ina Dprt. (O3 public) est un modèle différent adapté à l’utilisation des chats / produits », a déclaré le prix ARC sur son compte officiel X. « Tous les niveaux de comptage o3 publiés sont inférieurs à la version que nous avons (testée auparavant). »
The English, Chinese, Japanese, Arabic, and French versions are automatically generated by the AI. So there may still be inaccuracies in translating, please always see Indonesian as our main language. (system supported by DigitalSiber.id)