小红花·文摘

本研究实证分析了大型语言模型在多对多摘要中的表现，整理了八个领域的数据集，测试了18种LLMs，结果显示经过指令调优的开源LLMs在M2MS能力上优于零-shot LLMs，但事实准确性仍需提升。