同行评议也是聊天机器人写的吗

首页 > 科研动态 > 同行评议也是聊天机器人写的吗

栏目：科研动态
标签：天文科研动态 , 天文学科研动态 , 科研动态
更新时间： 2024年09月02日
摘要：同行评议也是聊天机器人写的吗？一项近日公布于arXiv预印本服务器的研究，在同行评议报告中确定了可能具有人工智能文本特征的流行形容词。这表明，研究人员正在转向ChatGPT和其他人工智能工具来评价他人的工作。作者研究了自ChatGPT发布以来，人工智能聊天机器人可以在多大程度上修改提交给4个主要计算机科学会议的论文集的同行评议报告。分析表明，高达17%的同行评议被聊天机器幅修改

同行评议也是聊天机器人写的吗？

一项近日公布于arXiv预印本服务器的研究，在同行评议报告中确定了可能具有人工智能文本特征的流行形容词。这表明，研究人员正在转向ChatGPT和其他人工智能工具来评价他人的工作。

作者研究了自ChatGPT发布以来，人工智能聊天机器人可以在多大程度上修改提交给4个主要计算机科学会议的论文集的同行评议报告。

分析表明，高达17%的同行评议被聊天机器幅修改，尽管尚不清楚研究人员是使用这些工具从头开始创作评议报告的，还是仅为了编辑和改进书面草稿。

研究人员正使用聊天机器人协助同行评议。图片来源：Rmedia7/Shutterstock

德国柏林工程应用技术大学的Debora Weber- Wulff表示，鉴于聊天机器人经常产生误导性或捏造的信息，其为未发表的作品撰写评议报告“非常令人震惊”。“人工智能系统会‘产生幻觉’，我们不知道它们何时产生幻觉，何时不产生幻觉。”

自2022年11月发布以来，ChatGPT已被用于撰写大量科学论文，在某些情况下甚至被列为作者。在接受《自然》杂志2023年调查的1600多名科学家中，近30%的人表示曾使用生成式人工智能撰写论文，约15%的人表示曾将其用于自己的文献综述和经费申请书。

在这项研究中，由美国斯坦福大学计算机科学家梁伟欣（音）领导的团队开发了一种技术，通过识别人工智能比人类更频繁使用的形容词来搜索人工智能创作的文本。

研究人员比较了ChatGPT发布前后提交给同一会议的14.6万多篇同行评议中的形容词使用情况。分析发现，自聊天机器人的使用成为主流以来，某些积极形容词的频率显著增加，如“值得称赞的”“创新的”“细致的”“复杂的”“显著的”和“多才多艺的”。这项研究列出了使用频率最高的100个形容词。

研究发现，对会议论文集评价较低、在截止日期前提交的以及作者最不可能回应或反驳的评议中，最有可能包含这些形容词。因此，至少在某种程度上，这最有可能是聊天机器人撰写的。“当人们没有时间的时候，倾向于使用ChatGPT。”梁伟欣说。

该研究还调查了2019年至2023年间，15种《自然》期刊接受发表的约1万篇手稿的2.5万多篇同行评议。结果发现，自ChatGPT发布以来，相同形容词的使用并没有出现激增。

施普林格·自然的一位发言人表示，出版商要求同行评议人员不要将手稿上传到生成式人工智能中，并指出这些工具仍有“相当大的局限性”，评议可能包括敏感或专有信息。

该发言人表示，施普林格·自然正在探索为同行评议人员提供安全的人工智能工具以指导他们评议的想法。

英国伦敦大学学院的Andrew Gray表示，梁伟欣的研究发现，在ChatGPT发布后的评议中，流行词的增加“非常惊人”。他近期的一项研究估计，2023年发表的至少6万篇论文的作者在某种程度上使用了聊天机器人，至少占当年发表的所有学术研究的1%。

Gray说，同行评议人员可能只是在编辑或翻译时使用了聊天机器人，但由于缺乏透明度，很难判断。“有证据表明这些工具正在被使用，但我们并不真正了解是如何被使用的。”

“我们不希望做出价值判断，也不希望声明使用人工智能工具审查论文一定是好是坏。” 梁伟欣说，“但我们确实认为，为了透明度和问责制，估计最终文本中有多少可能被人工智能生成或修改是很重要的。”

相关论文信息：https://arxiv.org/abs/2403.07183