没有免费的标签:没有人类基础的LLM作为评判者的局限性
📝
内容提要
本研究针对LLM作为评判者在评估自然语言文本质量时存在的偏见问题,分析了其在判断对话问题回答正确性上的能力。研究创新性地创建并发布了一个包含1200个LLM响应正确性标签的数据集,并发现提供高质量人类参考答案显著提高了评判者的判断准确性,揭示了LLM评判者与人类标注者之间复杂的关联。
🏷️
标签
➡️