研究显示,大型语言模型在语言生成质量评估中有潜力,但存在偏好偏向和对提示敏感的问题。为此,提出了ZEPO框架,提升评估公平性和与人类判断的一致性。ZEPO在无标定数据情况下表现出显著改进,强调了偏好公平性与人类一致性的重要性。
本研究提出了一个统一的基准OpenFGL,解决了联邦图学习评估公平性的问题,并展示了FGL的有效性和潜在局限性。
完成下面两步后,将自动完成登录并继续当前操作。