OpenAI GPT-5 人类工程测试:基准结果表明AI有能力成为专家
雅加达 - OpenAI再次通过其最新的模型GPT-5取得突破。在最近的一项使用称为GDPval的基准测试中,这种AI在九个重要行业的各种实际工作中进行了测试。结果非常令人惊讶:GPT-5能够匹配,甚至超过专业人员的性能,多达总测试的40%。
GDPval基准旨在测量人工智能模型在人为在工作世界中通常履行的任务中的性能。OpenAI解释说,这项测试包括从卫生,金融,制造业到政府部门的工作。给定的任务不仅限于模拟,而且实际上取自了实际工作实践。
例如,在其中一项测试中,专业人士被要求将人类的报告与AI版报告进行比较。投资银行领域也有测试,参与者被要求在最长远程送货行业中进行竞争对手分析,然后将结果与GPT-5制作的报告均匀分布。
因此,GPT-5成为迄今为止表现最佳的OpenAI模型。在40.6%的案例中,这种AI产出被认为与其领域专家的工作相提并论或更好。即便如此,OpenAI还指出,其竞争对手,来自Anthropic的Claude AI,的数字高出49%。然而,根据OpenAI的说法,这部分原因是Claude更有能力生产有趣的视觉和图形。
那么,这意味着人工智能很快就会取代人类吗?OpenAI断言,这种情况不会在不久的将来发生。根据OpenAI首席经济学家Aaron Chatterji博士的说法,GDPval的目标不是证明AI可以完全接管人类的工作。相反,人工智能有望成为一种支持工具,使人类能够更多地关注高价值的工作。
例如,编制基于数据的报告的任务通常需要数小时,GPT-5可以在几分钟内完成。这样,员工就可以将自己的时间分配给更具战略性的、创造性的甚至个人的事情。
GPT-5的实现标志着劳动世界的过渡阶段。OpenAI非但没有将其视为威胁,而是鼓励使用AI作为合作伙伴,以提高生产力,同时为人类做更有意义的事情开辟空间。