小红花·文摘

本研究探讨了大型语言模型（LLM）作为评审者的偏见问题，并提出了新的自动偏见量化框架CALM。实验结果表明，尽管先进模型表现良好，但在特定任务中仍存在显著偏见，强调了对LLM评审工具应用的谨慎态度及改进空间。