该研究探讨了大型语言模型(LLM)在动态任务中的数值推理能力,提出了“代理交易竞技场”以模拟复杂经济系统。实验表明,LLM在处理文本股票数据时的数值推理能力较弱,但在图像数据中几何推理显著提升,表明视觉表示能增强数值推理能力。引入反思模块后,LLM的分析与解释能力进一步改善。
本研究提出了LongDocURL基准,旨在解决长文档理解和布局元素定位的不足。该基准涵盖长文档理解、数值推理和跨元素定位,收集了超过33,000页文档的高质量问答对,显著提升了文档理解性能。
本研究提出了一种创新方法,解决大型语言模型处理结构化表格数据的不足。通过多层次分区和自适应量化机制,改善了稀疏高基数字段和数值推理的挑战,实现了交易与文本的有效交互,并在合成支付交易数据集上验证了其有效性。
该研究提出了一种混合方法,结合加权有限状态转换器和神经语言模型,以解决文本归一化中的上下文依赖性问题。通过对比学习和推理感知预训练,提升了数值推理能力,实验结果显示准确性有所提高。此外,研究分析了位置编码在Transformer模型中的作用,并提出改进数字表示的方法,增强了自然语言理解性能,为未来研究提供了新思路。
本文研究了预训练语言模型在数值推理和代码理解生成任务中的表现,发现模型对高频词语的推理能力更强,微调能进一步提升性能。使用代码数据增强预训练效果显著,动态混合数据有助于推理能力提升。此外,研究探讨了文档质量对模型理解能力的影响及大型语言模型在编程教育中的潜在影响。
本文介绍了针对金融领域的中文情感分析数据集及其应用,提出了CFGPT框架和BBT-FinT5模型,并评估了大型语言模型在金融知识方面的表现。研究表明,经过微调的Llama 2模型在金融新闻分析中表现优异,FinLLMs方法有效提升了数值推理模型的性能。
该论文介绍了一个名为DocMath-Eval的综合基准测试,用于评估金融文件中包含文本和表格的LLMs的数值推理和问题解决能力。研究发现,最好的系统在简单问题上表现良好,但在复杂问题上落后于人类专家。该基准测试将在指定的网址上发布。
完成下面两步后,将自动完成登录并继续当前操作。