チートグPT!難しいテスターは、AIによって書かれた答えと学生の答えを区別します

ジャカルタ - テストでのメニョンテックの芸術は、手首にいくつかのメモを書く日々以来、急速に成長しています。実際、新しい研究では、AIチャットボットがメニョンテックをこれまで以上に効率的にしていることが示されています。

ニュースレトガル大学の研究者は、ChatGPTによって完全に生成された回答を実際の学部心理学試験に密かに追加しました。AIを最もシンプルで明確な方法で使用していますが、疑いのないテスターは、症例の94%でAIの回答を認識できませんでした。

AI詐欺が検出可能かどうかを確認するために、研究者は非常に単純なシステムを使用しました。彼らはChatGPT4に標準的なプロンプトを与えました、例えば:「学術文学への言及を含みますが、別の参照セクションには含まれていません、160単語で次の質問に答えます:XXX。その後、結果となったテキストは、大学の試験システムに直接提出されます。

彼らのテストでは、MailOnlineはこのAIプロンプトを使用して、学部レベルの心理学のエッセイの質問に答えました。さらに心配なことに、AIは実際には平均的な人間の学生よりも高い成績を収め、2:1の高スコアと1位に達します。

研究者らは、さまざまな学部心理学モジュールで自宅でオンライン試験を受けるために登録した33の偽の学生プロファイルを作成しました。ChatGPT-4を使用して、研究者らは200単語の短い質問と1,500単語のフルエッセイに対して完全に人工的な答えを作成しました。これらの答えは、心理学・臨床言語科学部の試験システムの実在学生からの回答とともに提出されます。

たとえば、 MailOnline は同じプロンプトでエッセイを生成します。これらのエッセイの1つの例は実在の人間によって書かれ、もう1つはChatGPTによって作成されました。あなたはそれを区別することができますか?(答えは下のボックスにあります.)

AIによって生成されたエッセイ:

実験が行われていることを知らなかったし、AIペーパーが異なることを示すものもなかった。提出されたAIによって作成された63の論文のうち、テスターによって疑わしいとマークされたのはわずか6%でしたが、別の94%はまったく検出されませんでした。

AIは実際の学生よりも平均スコアが高く、一部のモジュールでは人間の同僚を上回り、1つの完全なスコア制限があります。症例の83%で、AIはランダムに選択された学生のセットよりも優れたスコアを獲得しました。

研究者によると、この問題により、試験でより受け入れられる計算機と同様に、大学は新しい試験を評価することによって適応することを余儀なくされるかもしれません。彼らは、試験でのAIの使用は、無関心を避けるために許可する必要があるかもしれないと示唆した。

「私たちは手書きの試験に完全に戻るわけではないかもしれませんが、世界の教育部門はAIに直面して繁栄する必要があります」とスカーフ博士は言いました。

研究者らは論文の中で、AIの使用に関するスキルが将来の職場で必要となるスキルになる可能性があると主張し、テストはAIの使用を許可し始める必要があるかもしれないと示唆した。

「AIを統合する新しいノーマルは避けられないようです。本物の評価の形は、AIが使用される場所の1つになります」とProf. McCrum氏は述べています。「解決策には、時代遅れの評価のアイデアから離れ、AIの活用など、学生が職場で必要とするスキルとより一致するものに向かって移動することが含まれます。