雅加达 - OpenAI于2024年12月推出了基本的人工智能(AI) o3 模型。推出数月后,由于第三方基准测试的结果,这种AI模型成为一个问题。

OpenAI测试显示出高结果,因此o3据称比Grok 3更好。为了证明其能力,OpenAI表示,o3能够回答超过四分之一的数学基准FrontierMath。

这一结果当然比其竞争对手要好得多,后者只设法控制了FrontierMath的2%。在OpenAI推出o3时的直播中,该公司还表示其AI基准达到25%以上。

然而,Epoch AI测试的结果实际上显示出不同的结果。FrontierMath背后的研究所于2025年4月18日分享了o3试验的结果。人工智能模型获得的分数仅为10%,比承诺低15%。

OpenAI可能不会在其基准结果上撒谎,因为Epoch的分数是OpenAI记录的较低限量分数。Epoch还解释说,这种试验结果的差异可能是由不同的版本的FrontierMath引起的。

“由于OpenAI使用更强大的内部基准评估,使用更多测试时间或因为结果是在不同的FrontierMath子设置上进行的,因此,我们结果与OpenAI结果之间的差异可能会发生,”Epoch在o3测试报告中写道。

另一方面,参与测试o3预发布版的组织实际上购买了Epoch测试结果。该组织名为ARC奖基金会(TechCrunch),援引TechCrunch的话说,今天流传的公众o3模型确实不同。

也就是说,Epoch测试结果没有遇到任何错误。相反,ARC Prize启动了OpenAI,因为o3测试结果在发布前,发布后实际上击败了差异。

「(公开o3)是自定义为聊天/产品用途的不同型号,”ARC Prize在其官方X帐户上表示。“发布的所有o3计算水平都小于我们(以前测试的版本)。"


The English, Chinese, Japanese, Arabic, and French versions are automatically generated by the AI. So there may still be inaccuracies in translating, please always see Indonesian as our main language. (system supported by DigitalSiber.id)

Add VOI as a Preferred Source
Follow VOI news updates across Google.
+