该研究探讨了大型语言模型(LLM)在动态任务中的数值推理能力,提出了“代理交易竞技场”以模拟复杂经济系统。实验表明,LLM在处理文本股票数据时的数值推理能力较弱,但在图像数据中几何推理显著提升,表明视觉表示能增强数值推理能力。引入反思模块后,LLM的分析与解释能力进一步改善。
本研究提出了LongDocURL基准,旨在解决长文档理解和布局元素定位的不足。该基准涵盖长文档理解、数值推理和跨元素定位,收集了超过33,000页文档的高质量问答对,显著提升了文档理解性能。
本文介绍了一种基于图神经网络的数值推理方法,用于构建材料知识图谱和预测材料性质。通过处理跨模态数据和挖掘关系,充分利用实验数据。引入了两个新的高熵合金属性数据集,展示了该方法在材料和分子数据集上的改进,强调其应用潜力和普适性。
本研究提出了一种创新方法,解决大型语言模型处理结构化表格数据的不足。通过多层次分区和自适应量化机制,改善了稀疏高基数字段和数值推理的挑战,实现了交易与文本的有效交互,并在合成支付交易数据集上验证了其有效性。
该论文介绍了一个名为DocMath-Eval的综合基准测试,用于评估金融文件中包含文本和表格的LLMs的数值推理和问题解决能力。研究发现,最好的系统在简单问题上表现良好,但在复杂问题上落后于人类专家。该基准测试将在指定的网址上发布。
完成下面两步后,将自动完成登录并继续当前操作。