💡
原文中文,约4100字,阅读约需10分钟。
📝
内容提要
大语言模型(LLMs)在学术同行评审中逐渐应用,但可能引发操控、偏见和幻觉等风险。研究表明,作者可能通过隐性或显性方式影响审稿意见,损害评审公正性。专家建议暂停LLMs作为审稿工具,并引入检测工具和问责机制,以维护学术评审的公平性和严谨性。
🎯
关键要点
- 大语言模型(LLMs)在学术同行评审中逐渐应用,但存在操控、偏见和幻觉等风险。
- 研究表明,作者可能通过隐性或显性方式影响审稿意见,损害评审公正性。
- 斯坦福大学的研究指出,LLMs能够生成与人类审稿人相似的审稿意见,且部分论文内容由LLMs显著调整。
- 大语言模型的使用可能导致审稿过程的可靠性风险,需采取防范措施。
- 研究揭示了操控风险,包括显式操控和隐式操控,可能影响审稿的公平性。
- 幻觉问题:LLMs可能对空白文章生成虚构的审稿意见,影响评审质量。
- 偏见问题:LLMs在审稿中对文章长度和著名作者及机构存在偏好,影响评审公正性。
- 研究者呼吁暂停LLMs作为审稿工具,并引入检测工具和问责机制,以维护学术评审的公平性和严谨性。
- 未来应将LLMs作为辅助工具使用,增强审稿系统的稳健性与安全性。
➡️