小红花·文摘

该研究探讨了大型语言模型（LLM）在动态任务中的数值推理能力，提出了“代理交易竞技场”以模拟复杂经济系统。实验表明，LLM在处理文本股票数据时的数值推理能力较弱，但在图像数据中几何推理显著提升，表明视觉表示能增强数值推理能力。引入反思模块后，LLM的分析与解释能力进一步改善。

LLM Understands Geometry Better than Algebra: Numerical Understanding of LLM-Based Agents in the Trading Domain

BriefGPT - AI 论文速递 ·

本研究提出了LongDocURL基准，旨在解决长文档理解和布局元素定位的不足。该基准涵盖长文档理解、数值推理和跨元素定位，收集了超过33,000页文档的高质量问答对，显著提升了文档理解性能。

LongDocURL: A Comprehensive Multimodal Benchmark Framework for Long Document Understanding, Reasoning, and Localization

BriefGPT - AI 论文速递 ·

本研究提出了一种创新方法，解决大型语言模型处理结构化表格数据的不足。通过多层次分区和自适应量化机制，改善了稀疏高基数字段和数值推理的挑战，实现了交易与文本的有效交互，并在合成支付交易数据集上验证了其有效性。

Scalable Multimodal Table Transaction Representation Learning

BriefGPT - AI 论文速递 ·

该研究提出了一种混合方法，结合加权有限状态转换器和神经语言模型，以解决文本归一化中的上下文依赖性问题。通过对比学习和推理感知预训练，提升了数值推理能力，实验结果显示准确性有所提高。此外，研究分析了位置编码在Transformer模型中的作用，并提出改进数字表示的方法，增强了自然语言理解性能，为未来研究提供了新思路。

数字标准化的位置信息描述

BriefGPT - AI 论文速递 ·

本文研究了预训练语言模型在数值推理和代码理解生成任务中的表现，发现模型对高频词语的推理能力更强，微调能进一步提升性能。使用代码数据增强预训练效果显著，动态混合数据有助于推理能力提升。此外，研究探讨了文档质量对模型理解能力的影响及大型语言模型在编程教育中的潜在影响。

编码还是不编码？探索代码在预训练中的影响

BriefGPT - AI 论文速递 ·

本文介绍了针对金融领域的中文情感分析数据集及其应用，提出了CFGPT框架和BBT-FinT5模型，并评估了大型语言模型在金融知识方面的表现。研究表明，经过微调的Llama 2模型在金融新闻分析中表现优异，FinLLMs方法有效提升了数值推理模型的性能。

FFN：一个细粒度的中英金融领域平行语料库

BriefGPT - AI 论文速递 ·

该论文介绍了一个名为DocMath-Eval的综合基准测试，用于评估金融文件中包含文本和表格的LLMs的数值推理和问题解决能力。研究发现，最好的系统在简单问题上表现良好，但在复杂问题上落后于人类专家。该基准测试将在指定的网址上发布。

DocMath-Eval：评估 LLMs 在理解带表格数据的长文档中的数值推理能力

BriefGPT - AI 论文速递 ·