人間の仕事におけるOpenAI GPT-5テスト:ベンチマークの結果は、AIが専門家を傷つけることができることを示しています

ジャカルタ-OpenAIは、最新モデルであるGPT-5を通じて再びブレークスルーを遂げました。GDPvalと呼ばれるベンチマークを使用した最新の試験では、このAIは9つの重要な業界でのさまざまな実際の仕事でテストされました。結果は非常に驚くべきものでした:GPT-5は、合計テストのプロ意識の40%を一致させ、さらには超えることができました。

GDPvalベンチマークは、仕事の世界で人間が通常行うタスクに関するAIモデルのパフォーマンスを測定するように設計されています。OpenAIは、このテストには健康、金融、製造、政府部門からの仕事が含まれていると説明しました。与えられたタスクはシミュレーションに限定されず、実際の仕事の実践から実際に取られます。

たとえば、あるテストでは、専門家は人間が作成したレポートをAI版のレポートと比較するように求められました。投資銀行の分野でもテストがあり、参加者は最後のリモートデリバリー業界の競合他社の分析を行うように求められ、その結果はGPT-5によるレポートと一致しました。

その結果、GPT-5はオープンAIモデルとなり、これまでのところ最高のパフォーマンスを発揮しました。ケースの40.6%では、このAIアウトプットは、その分野の専門家の仕事と同等またはそれ以上のものと考えられています。それでも、OpenAIは、競合他社のAnthropicのKワード AIが49%と高い数を記録したと指摘しています。しかし、OpenAIによると、これはKワードが魅力的なビジュアルとグラフィックスを生成するのに優れているためです。

では、これはAIがすぐに人間に取って代わることを意味するのでしょうか?OpenAIは、これは近い将来に起こらないと主張している。OpenAIのチーフエコノミストであるアーロン・チャタージ博士によると、GDPvalの目標は、AIが人間の仕事を完全に引き継ぐことができることを証明することではありません。それどころか、AIは、人間が高価値の仕事にもっと集中できるようにするためのサポートツールであることが期待されています。

たとえば、通常何時間もかかるデータ駆動型レポートをコンパイルするタスクは、GPT-5 で数分で完了できます。そうすれば、労働者はより戦略的、創造的、あるいは個人的なものに時間を割り当てることができます。

このGPT-5の達成は、仕事の世界における移行段階を示しています。OpenAIは、それを脅威と見なすのではなく、生産性を向上させ、人間がより有意義なことをするためのスペースを開くことができるパートナーとしてのAIの使用を奨励しています。