小红花·文摘

研究表明，ChatGPT及类似模型在文本质量评估中表现优异，尤其在生成数字评分方面。尽管GPT-4能识别大部分论文错误，但在选择优质论文时仍存在误差。GPT-4在特定任务上可与人工评审相媲美，但在复杂方法和伦理问题上存在局限。未来需谨慎使用大型语言模型，并探索其对科学评审的影响。