DocMath-Eval:评估 LLMs 在理解带表格数据的长文档中的数值推理能力
该论文介绍了 DocMath-Eval,这是一个特意设计用于评估具有理解和分析既包含文本又包含表格的金融文件的 LLMs 的数值推理和问题解决能力的综合基准测试。我们评估了 19 个 LLMs 的广泛领域的表现,并采用不同的提示策略来全面评估现有 LLMs 在 DocMath-Eval 中的能力和局限性。我们发现,尽管目前表现最好的系统(即...
该论文介绍了一个名为DocMath-Eval的综合基准测试,用于评估金融文件中包含文本和表格的LLMs的数值推理和问题解决能力。研究发现,最好的系统在简单问题上表现良好,但在复杂问题上落后于人类专家。该基准测试将在指定的网址上发布。