研究发现,九个大型语言模型(LLM)组成的评审小组仅提供约两个独立投票的信息。由于模型在相同项目上犯相同错误,评审小组的准确性比独立投票低8-22个百分点。增加评审人数或使用更智能的聚合算法未显著改善结果,表明评审小组的相关性是主要瓶颈,无法替代真正独立的评估。
完成下面两步后,将自动完成登录并继续当前操作。