FinanceBench 是一个对 LLMs 在开放式财务问答(QA)中性能评估的首个测试套件,通过对公开交易公司的 10,231 个问题进行测试,发现现有的 LLMs 在财务 QA 方面存在明显的局限性。
KnowledgeMath是评估LLMs在应用财务知识解决数学问题能力的基准,包含1,259个问题,需要大学水平的财务知识。提供了Python程序格式的专家解决方案。评估了14个LLMs,最佳系统准确率为45.4%。KnowledgeMath有助于领域特定知识检索和数学问题解决研究。基准和代码将在指定链接发布。