FinDVer:长篇和混合内容金融文档的可解释索赔验证
📝
内容提要
本文旨在解决当前大语言模型在分析复杂金融文档中的索赔验证能力不足的问题。我们提出了FinDVer,一个专门的基准,包含2400个专家标注的示例,涵盖信息提取、数值推理和知识密集型推理。研究发现,即使是表现最佳的系统,GPT-4o,仍未能超越人类专家,为今后的模型改进提供了重要见解。
🏷️
标签
➡️