小红花·文摘

研究表明，ChatGPT在决策效应和偏见方面与人类表现相似。GPT-4在论文审核中能有效识别错误，但在选择优质论文时仍存在误差。用户普遍认为GPT-4生成的反馈有帮助，但在系统综述中需谨慎使用。研究呼吁建立统一的评估体系，以应对大语言模型的社会影响和评估挑战。