大型语言模型快速发展,但现有学术基准无法全面评估其在特定领域的表现。企业需要针对特定任务的评估,以选择合适的模型。我们开发了领域智能基准套件(DIBS),专注于数据提取、工具使用和代理工作流等常见用例。评估结果显示,学术基准与企业任务的表现存在显著差异,强调了领域特定测试的重要性。
完成下面两步后,将自动完成登录并继续当前操作。