本研究提出了新基准MontageLie,揭示了现有信息对齐评估方法的不足。通过拼接真实陈述构建误导性叙事,暴露了评估框架的脆弱性。同时,提出了DoveScore框架,联合验证事实准确性和事件顺序一致性,以提升长格式文本对齐评估的鲁棒性。
完成下面两步后,将自动完成登录并继续当前操作。