该论文介绍了一个名为DocMath-Eval的综合基准测试,用于评估金融文件中包含文本和表格的LLMs的数值推理和问题解决能力。研究发现,最好的系统在简单问题上表现良好,但在复杂问题上落后于人类专家。该基准测试将在指定的网址上发布。
完成下面两步后,将自动完成登录并继续当前操作。