小红花·文摘

本研究提出了SummExecEdit基准，旨在解决现有摘要评估在事实不一致性和可解释性方面的不足。研究显示，最优模型Claude3-Opus的检测与解释联合分数仅为0.49，表明模型的准确性仍需提高。