小红花·文摘

本研究提出了多表检索增强洞察生成基准MT-RAIG Bench，以评估系统在复杂多表格中的洞察能力，并引入精细化评估框架MT-RAIG Eval。实验结果显示，前沿语言模型在多表推理方面仍存在挑战，验证了MT-RAIG Bench的研究价值。