Databricks ·

Databricks宣布在Agent Evaluation中对内置LLM评判器进行重大改进

💡 原文英文，约1800词，阅读约需7分钟。

📝

内容提要

Agent Evaluation推出了一种改进的答案正确性评判器，允许Databricks客户衡量和提高其GenAI应用的质量。该评判器包括一个供人工专家提供反馈的审查界面和一套用于可扩展性的自动评判器。与基准相比，新的评判器在客户代表性用例上显示出显著改进。它通过推理参考答案中的事实和主张来评估生成答案的正确性。该评判器已在学术和工业数据集上进行了评估，与人工标注者达成了高度一致和非随机准确性。它优于现有的基准，并具有少样本学习的进一步优化潜力。

🎯

关键要点

Agent Evaluation推出了一种改进的答案正确性评判器，帮助Databricks客户提高GenAI应用的质量。
该评判器包括人工专家反馈的审查界面和可扩展的自动评判器。
新的评判器在客户代表性用例上显示出显著改进，评估生成答案的正确性。
评判器在学术和工业数据集上进行了评估，与人工标注者达成高度一致。
改进的评判器通过推理参考答案中的事实和主张来评估生成答案的正确性。
评判器的输入包括问题、生成的答案和参考答案，输出二元结果并提供推理依据。
现有的LLM评判器存在依赖模糊相似性评分的局限性，而新评判器更专注于事实和主张的评估。
评估方法包括对学术和行业数据集的多位人工标注者进行一致性评估。
新评判器在学术数据集上达到了88.1%的一致性，在行业数据集上达到了82.2%的一致性。
新评判器在客户数据集上优于现有基准，显示出进一步优化的潜力。

❓

延伸问答

Databricks的Agent Evaluation有什么新功能？

Agent Evaluation推出了一种改进的答案正确性评判器，帮助客户提高GenAI应用的质量。

新的答案正确性评判器如何评估生成答案的正确性？

评判器通过比较生成答案与参考答案，输出二元结果并提供推理依据。

新评判器在客户数据集上的表现如何？

新评判器在客户数据集上优于现有基准，显示出显著改进。

与旧版评判器相比，新评判器有哪些优势？

新评判器在客户代表性用例上显示出更高的一致性和准确性，且不依赖模糊相似性评分。

新评判器的输入和输出是什么？

输入包括问题、生成的答案和参考答案，输出为二元结果和推理依据。

新评判器的评估方法是什么？

评估方法包括对学术和行业数据集的多位人工标注者进行一致性评估。

🏷️

继续阅读

扩展企业对话智能：由Databricks Genie驱动的跨行业技术和功能解决方案
Databricks Genie利用自然语言处理技术，推动各行业的数据民主化和智能化，优化财务规划、法律合规和IT运营等功能。与合作伙伴开发的工具结合，提...
寻找物品的最佳蓝牙追踪器
蓝牙追踪器可以帮助人们找到丢失的物品。现代蓝牙追踪器具备发声、精确定位和大范围追踪功能，并有反跟踪保护。苹果的AirTag适合iPhone用户，而Tile...
教你薅token：构建agent无关的AI工作流
目前使用AI的主要痛点是高昂的账单。用户可以通过维护良好的文档来优化使用流程，减少对高价Agent的依赖。合理利用免费资源可以节省开支，维护好文档有助于降...
刚刚，Windows「梦中神机」来了，把你的 PC 变成 Agent 工位
微软与OpenAI的合作关系逐渐疏远。在Build 2026发布会上，微软展示了自研的MAI模型系列，涵盖推理、代码、图像和语音等领域，强调多模型选择的重...
[MAF预定义ChatClient中间件-01]LoggingChatClient——在调用LLM前后输出日志 - Artech
LoggingChatClient是一个IChatClient中间件，用于记录调用日志，帮助调试和监控Agent行为。它记录输入、输出及时间戳信息，并支持...
OpenClaw v2026.6.1：Windows原生节点、支持MiniMax M3
OpenClaw 2026.6.1版本发布，支持Windows原生节点，简化使用流程。新增Agent技能工坊，允许Agent自学修复问题并存储技能。工作板...