Databricks宣布在Agent Evaluation中对内置LLM评判器进行重大改进

Databricks宣布在Agent Evaluation中对内置LLM评判器进行重大改进

💡 原文英文,约1800词,阅读约需7分钟。
📝

内容提要

Agent Evaluation推出了一种改进的答案正确性评判器,允许Databricks客户衡量和提高其GenAI应用的质量。该评判器包括一个供人工专家提供反馈的审查界面和一套用于可扩展性的自动评判器。与基准相比,新的评判器在客户代表性用例上显示出显著改进。它通过推理参考答案中的事实和主张来评估生成答案的正确性。该评判器已在学术和工业数据集上进行了评估,与人工标注者达成了高度一致和非随机准确性。它优于现有的基准,并具有少样本学习的进一步优化潜力。

🎯

关键要点

  • Agent Evaluation推出了一种改进的答案正确性评判器,帮助Databricks客户提高GenAI应用的质量。
  • 该评判器包括人工专家反馈的审查界面和可扩展的自动评判器。
  • 新的评判器在客户代表性用例上显示出显著改进,评估生成答案的正确性。
  • 评判器在学术和工业数据集上进行了评估,与人工标注者达成高度一致。
  • 改进的评判器通过推理参考答案中的事实和主张来评估生成答案的正确性。
  • 评判器的输入包括问题、生成的答案和参考答案,输出二元结果并提供推理依据。
  • 现有的LLM评判器存在依赖模糊相似性评分的局限性,而新评判器更专注于事实和主张的评估。
  • 评估方法包括对学术和行业数据集的多位人工标注者进行一致性评估。
  • 新评判器在学术数据集上达到了88.1%的一致性,在行业数据集上达到了82.2%的一致性。
  • 新评判器在客户数据集上优于现有基准,显示出进一步优化的潜力。

延伸问答

Databricks的Agent Evaluation有什么新功能?

Agent Evaluation推出了一种改进的答案正确性评判器,帮助客户提高GenAI应用的质量。

新的答案正确性评判器如何评估生成答案的正确性?

评判器通过比较生成答案与参考答案,输出二元结果并提供推理依据。

新评判器在客户数据集上的表现如何?

新评判器在客户数据集上优于现有基准,显示出显著改进。

与旧版评判器相比,新评判器有哪些优势?

新评判器在客户代表性用例上显示出更高的一致性和准确性,且不依赖模糊相似性评分。

新评判器的输入和输出是什么?

输入包括问题、生成的答案和参考答案,输出为二元结果和推理依据。

新评判器的评估方法是什么?

评估方法包括对学术和行业数据集的多位人工标注者进行一致性评估。

➡️

继续阅读