本研究提出了多表检索增强洞察生成基准MT-RAIG Bench,以评估系统在复杂多表格中的洞察能力,并引入精细化评估框架MT-RAIG Eval。实验结果显示,前沿语言模型在多表推理方面仍存在挑战,验证了MT-RAIG Bench的研究价值。
完成下面两步后,将自动完成登录并继续当前操作。