小红花·文摘

本文提出了SECQUE，一个评估大型语言模型在金融分析任务中的基准，涵盖565个专家问题。通过SECQUE-Judge机制，展示了语言模型与人类评估的一致性，为金融AI研究提供支持。