基于 LLM 的评估者是否混淆了 NLG 质量标准?
原文中文,约400字,阅读约需1分钟。发表于: 。通过设计和实际测试,我们发现 LLMs 在自然语言生成(NLG)评估中存在混淆不同评估标准的问题,这降低了它们的可靠性。为了进一步验证,我们首先总结了一个清晰的层次分类系统,包括 11 个常见方面的相关标准,然后设计了 18 种针对不同 LLMs 评估行为的攻击方法,并进行人工标注验证,揭示了 LLMs 固有的混淆问题以及其他值得关注的现象,从而为基于 LLMs 的评估提出了进一步的研究和改进的必要性。
本文提出了一种新框架,用于评估语言模型和人类评判者的偏见。结果显示人类和语言模型评判者都容易受到扰动,并存在偏见。作者呼吁社区意识到评估系统的脆弱性,并开发健壮的评估系统。