Databricks推出了OfficeQA基准,旨在评估AI代理在经济价值任务中的表现,特别是复杂数据集的推理能力。尽管现有模型在标准测试中表现良好,但在实际企业任务中的准确率仍低于70%。OfficeQA包含246个问题,分为简单和困难两类,反映企业常见问题。2026年春季将举行AI与人类团队的竞赛,以推动创新。
OfficeQA是由Mosaic研究团队于2025年12月4日推出的端到端基础推理基准测试,旨在评估和提升人工智能在实际应用中的推理能力。
完成下面两步后,将自动完成登录并继续当前操作。