<a href='https://ads.sibernetworks.com/www/delivery/ck.php?n=a6b0314b&cb=INSERT_RANDOM_NUMBER_HERE' target='_blank'><img src='https://ads.sibernetworks.com/www/delivery/avw.php?zoneid=27&cb=INSERT_RANDOM_NUMBER_HERE&n=a6b0314b' border='0' alt='' /></a>

OpenAI成为人们关注的焦点,最新基准型号o3低于承诺

21 April 2025, 07:35 | 编辑团队

OpenAI成为人们关注的焦点,最新基准型号o3低于承诺 — O3 OpenAI基准标记备受瞩目(照片:unsplash博士)

分享:

雅加达 - OpenAI于2024年12月推出了基本的人工智能(AI) o3 模型。推出数月后,由于第三方基准测试的结果,这种AI模型成为一个问题。

OpenAI测试显示出高结果,因此o3据称比Grok 3更好。为了证明其能力,OpenAI表示,o3能够回答超过四分之一的数学基准FrontierMath。

这一结果当然比其竞争对手要好得多,后者只设法控制了FrontierMath的2%。在OpenAI推出o3时的直播中,该公司还表示其AI基准达到25%以上。

然而,Epoch AI测试的结果实际上显示出不同的结果。FrontierMath背后的研究所于2025年4月18日分享了o3试验的结果。人工智能模型获得的分数仅为10%,比承诺低15%。

OpenAI可能不会在其基准结果上撒谎,因为Epoch的分数是OpenAI记录的较低限量分数。Epoch还解释说,这种试验结果的差异可能是由不同的版本的FrontierMath引起的。

“由于OpenAI使用更强大的内部基准评估,使用更多测试时间或因为结果是在不同的FrontierMath子设置上进行的,因此,我们结果与OpenAI结果之间的差异可能会发生,”Epoch在o3测试报告中写道。

另一方面,参与测试o3预发布版的组织实际上购买了Epoch测试结果。该组织名为ARC奖基金会(TechCrunch),援引TechCrunch的话说,今天流传的公众o3模型确实不同。

也就是说,Epoch测试结果没有遇到任何错误。相反,ARC Prize启动了OpenAI,因为o3测试结果在发布前,发布后实际上击败了差异。

「(公开o3)是自定义为聊天/产品用途的不同型号,”ARC Prize在其官方X帐户上表示。“发布的所有o3计算水平都小于我们(以前测试的版本)。"

The English, Chinese, Japanese, Arabic, and French versions are automatically generated by the AI. So there may still be inaccuracies in translating, please always see Indonesian as our main language. (system supported by DigitalSiber.id)

Tag: openai kecerdasan buatan

Add VOI as a Preferred Source

Follow VOI news updates across Google.

最受欢迎的标签

#Prabowo Subianto #唐纳德·特朗普 #4500 #8791 #giias 2026

流行

埃及港口无人机袭击是伊朗的警告

| 新闻

埃及港口无人机袭击是伊朗的警告

31 Juli 2026, 03:03

OJK：通过数字金融，年轻一代成为经济增长的引擎

| 经济

OJK：通过数字金融，年轻一代成为经济增长的引擎

31 Juli 2026, 06:10

如何种植柠檬草，满足厨房需求，在家很容易练习

| 生活方式

如何种植柠檬草，满足厨房需求，在家很容易练习

31 Juli 2026, 05:05

相关新闻

在62,000个KPR协议之后，TAPERA在东爪哇准备了71,000套房屋

在62,000个KPR协议之后，TAPERA在东爪哇准备了71,000套房屋

宫殿说，Tukin的增加不仅仅是为了TNI

宫殿说，Tukin的增加不仅仅是为了TNI

特朗普宣布哈马斯武器削减协议和以色列从加沙撤军

特朗普宣布哈马斯武器削减协议和以色列从加沙撤军

9个检察官办公室小组检查了与Don Ritto有关的7家公司，涉及TPPU Febrie Adriansyah案件

9个检察官办公室小组检查了与Don Ritto有关的7家公司，涉及TPPU Febrie Adriansyah案件

周末股市预计将继续走强，分析师推荐这四只股票

周末股市预计将继续走强，分析师推荐这四只股票

伊朗声称在约旦摧毁了美国隐形战机，美国中央司令部称其为虚假声明

伊朗声称在约旦摧毁了美国隐形战机，美国中央司令部称其为虚假声明