本研究探讨了大型语言模型(LLM)作为评审者的偏见问题,并提出了新的自动偏见量化框架CALM。实验结果表明,尽管先进模型表现良好,但在特定任务中仍存在显著偏见,强调了对LLM评审工具应用的谨慎态度及改进空间。
完成下面两步后,将自动完成登录并继续当前操作。