OpenAI成为人们关注的焦点,最新基准型号o3低于承诺

雅加达 - OpenAI于2024年12月推出了基本的人工智能(AI) o3 模型。推出数月后,由于第三方基准测试的结果,这种AI模型成为一个问题。

OpenAI测试显示出高结果,因此o3据称比Grok 3更好。为了证明其能力,OpenAI表示,o3能够回答超过四分之一的数学基准FrontierMath。

这一结果当然比其竞争对手要好得多,后者只设法控制了FrontierMath的2%。在OpenAI推出o3时的直播中,该公司还表示其AI基准达到25%以上。

然而,Epoch AI测试的结果实际上显示出不同的结果。FrontierMath背后的研究所于2025年4月18日分享了o3试验的结果。人工智能模型获得的分数仅为10%,比承诺低15%。

OpenAI可能不会在其基准结果上撒谎,因为Epoch的分数是OpenAI记录的较低限量分数。Epoch还解释说,这种试验结果的差异可能是由不同的版本的FrontierMath引起的。

“由于OpenAI使用更强大的内部基准评估,使用更多测试时间或因为结果是在不同的FrontierMath子设置上进行的,因此,我们结果与OpenAI结果之间的差异可能会发生,”Epoch在o3测试报告中写道。

另一方面,参与测试o3预发布版的组织实际上购买了Epoch测试结果。该组织名为ARC奖基金会(TechCrunch),援引TechCrunch的话说,今天流传的公众o3模型确实不同。

也就是说,Epoch测试结果没有遇到任何错误。相反,ARC Prize启动了OpenAI,因为o3测试结果在发布前,发布后实际上击败了差异。

「(公开o3)是自定义为聊天/产品用途的不同型号,”ARC Prize在其官方X帐户上表示。“发布的所有o3计算水平都小于我们(以前测试的版本)。"