FAMMA：金融领域多语言多模态问答的基准

本文提出了FAMMA，一个开放源代码的金融多语言多模态问答基准，旨在评估多模态大型语言模型（MLLMs）对复杂金融知识问题的回答能力。研究发现，现有模型在该基准上的表现不足，挑战显著，同时探索了通过推理链提升模型推理能力的方法，为未来金融问答领域的研究提供了基础。

通过外部工具增强语言模型可以减少金融领域的误差和幻觉。研究对 LLaMA-2 13B Chat 模型进行监督微调，使其成为“任务路由器”和“任务解决器”。使用金融问答数据集，模型 Raven 相比基准和基线模型分别提升了 35.2% 和 5.06%，并能与 GPT-3.5 竞争。这是首次在金融领域探索工具增强的研究。

LLaMA-2 Raven 多语言工具增强语言模型金融金融领域