小红花·文摘

该研究探讨了大型语言模型（LLM）在动态任务中的数值推理能力，提出了“代理交易竞技场”以模拟复杂经济系统。实验表明，LLM在处理文本股票数据时的数值推理能力较弱，但在图像数据中几何推理显著提升，表明视觉表示能增强数值推理能力。引入反思模块后，LLM的分析与解释能力进一步改善。