TQA-Bench:评估大语言模型在多表问答中的可扩展上下文和符号扩展能力
📝
内容提要
本研究针对现有的多表问答评估缺乏系统性的问题,提出了TQA-Bench基准。这一新基准设计用于评估大语言模型在复杂关系数据上处理问答任务的能力,结合了真实世界的公共数据集,并引入灵活的采样机制。我们发现,TQA-Bench能有效揭示大语言模型在多表问答中的表现,为其在复杂数据驱动环境中的应用提供了重要洞见。
🏷️