雅加达 - 由德国图宾根大学和西北大学的四名研究人员领导的最新研究揭示了使用长语模型(LLM)对科学写作的重要影响。该研究使用过度的单词分析方法,突显了自2022年底推出LLM以来某些单词使用的激增。

这项研究是通过分析2010年至2024年期间在PubMed上发表的1400多万件抽象文章进行的。研究人员比较了LLM时代之前和之后字词的相对频率,以确定字词选择中的变化。结果表明,在LLM变得更加普遍使用后,以前很少使用的许多单词,如“delves”,“showcasing”和“undercores”经历了显着的使用激增。

图宾根大学主要研究员之一安德烈亚斯·穆勒(Andreas Müller)博士解释说,这一改善表明,LLM在科学抽象撰写过程中被使用。“我们发现,到2024年出版的抽象中至少有10%在这个过程中使用了LLM,”他说。这些发现强调了发现LLM使用的重要性,因为即使生成的文本看起来人为,它们也有可能包含不准确的参考或虚假的主张。

该研究还将LLM后词使用的激增与COVID-19大流行等重大世界健康事件期间的言语激增进行了比较。Muleller博士解释说,在LLM时代之前,言语激增通常与2015年埃博拉病毒等重大全球事件和2020年至2022年COVID-19大流行有关。然而,LLM后词的激增往往集中在工作词,属性词和字幕等时尚词上。

虽然这些词语使用量的增加自然会发生在语言演变中,但研究人员强调,在LLM时代之前,这种突然和显着的飙升很少见。他们还指出,在需要帮助编辑英语文本的非本生作家中,使用LLM 可能更为常见。

这一发现为提高人类从LLM生成的文本中检测和删除不自然的时尚词的能力铺平了道路。研究人员希望,对LLM标记字词的了解将使人类编辑能够更有效地过滤生成文本,然后再传播给全球科学界。

该研究已于本月早些时候以预出版的形式发表,预计将激发关于人工智能生成技术对现代科学传播影响的进一步讨论。


The English, Chinese, Japanese, Arabic, and French versions are automatically generated by the AI. So there may still be inaccuracies in translating, please always see Indonesian as our main language. (system supported by DigitalSiber.id)