小红花·文摘

本文探讨了大型语言模型（LLMs）在内容质量评估中的系统偏差，并提出了两种校准策略以减轻这种偏差。研究表明，LLMs在评估中存在显著偏见，影响其与人类判断的一致性。作者开发了FairEval工具包，结合人工注释，促进未来研究的开展。