该研究探讨了大型语言模型(LLM)在动态任务中的数值推理能力,提出了“代理交易竞技场”以模拟复杂经济系统。实验表明,LLM在处理文本股票数据时的数值推理能力较弱,但在图像数据中几何推理显著提升,表明视觉表示能增强数值推理能力。引入反思模块后,LLM的分析与解释能力进一步改善。
完成下面两步后,将自动完成登录并继续当前操作。