本研究开发了30种反事实场景,收集了206位受访者的评分,并提出了一种新评估方法。经过微调的大型语言模型在预测人类评分的准确率达到85%,提升了反事实解释框架的评估可比性和可扩展性。
完成下面两步后,将自动完成登录并继续当前操作。