小红花·文摘

该论文介绍了一个名为DocMath-Eval的综合基准测试，用于评估金融文件中包含文本和表格的LLMs的数值推理和问题解决能力。研究发现，最好的系统在简单问题上表现良好，但在复杂问题上落后于人类专家。该基准测试将在指定的网址上发布。