小红花·文摘

本研究提出了新基准MontageLie，揭示了现有信息对齐评估方法的不足。通过拼接真实陈述构建误导性叙事，暴露了评估框架的脆弱性。同时，提出了DoveScore框架，联合验证事实准确性和事件顺序一致性，以提升长格式文本对齐评估的鲁棒性。