CheatGPT!困难的测试者将人工智能撰写的答案与学生答案区分开来

雅加达 - 考试中的Seni menyontek在手腕上写一些笔记的日子以来一直在迅速发展。事实上,一项新研究表明,人工智能聊天机器人会让笔记比以往任何时候都更有效率。

Reading University的研究人员秘密将ChatGPT 产生的完全答案添加到实际的学士级心理学测试中。尽管以最简单、最明确的方式使用人工智能,但毫无疑问的测试者在94%的病例中未能识别人工智能答案。

研究人员使用一个非常简单的系统来检测人工智能欺诈是否可以检测到。例如,他们为 ChatGPT4 提供了加速标准,例如:“包括学术文献的参考,但不是单独的参考部分,以160个字回答以下问题:XXX。然后生成的文本直接通过大学的考试系统提交。

在他们的测试中,MailOnline使用这种高级人工智能来回答学者层面的心理质疑。更令人担忧的是,人工智能实际上得分高于普通人类学生 - 达到2:1高和一级的得分。

研究人员在各种学士级心理学模块中创建了33个假学生的概况,他们注册参加了在家参加在线考试。使用ChatGPT-4,研究人员为200字短询和1,500个全字的缺口创造了全人工答案。然后,这些答案与心理学与临床语言科学学院考试系统中真实学生的答案一起提出。

例如,MailOnline 以相同的行程生成厄赛。其中一个例子是由真人写的,而另一个例子是由ChatGPT生成的。你能否区分开来?“(答案在下面的框中)

人工智能生成的精液:

没有测试者知道正在进行实验,也没有人表明人工智能论文是不同的。在提交的63篇人工智能产生的论文中,只有6%被测试者标记为可疑,但另有94%根本未被发现。

人工智能的平均分数高于真正的学生,在某些模块中,人工智能以一个全部价值限制超过其人类对手。在83%的案件中,人工智能的分数高于随机选择的学生。

根据研究人员的说法,这个问题可能迫使大学适应新的判断方法,就像计算器在考试中变得更加可接受一样。他们建议,在考试中使用人工智能可能需要被允许以避免不相关性。

“我们可能不会完全回到手写考试,但全球教育部门需要面对人工智能的发展,”斯卡菲博士说。

研究人员在他们的论文中认为,考验可能需要开始允许使用人工智能,理由是使用人工智能的技能可能是未来的工作场所必需的技能。

「整合人工智能的新规范似乎是不可避免的。一种真实的评估形式将是人工智能使用的地方之一,“Prof. McCrum说。“解决方案包括与过时的评估想法保持距离,更符合学生在工作中所需的技能,包括利用人工智能。