Databricks宣布在Agent Evaluation中对内置LLM评判器进行重大改进
原文英文,约1800词,阅读约需7分钟。发表于: 。An improved answer-correctness judge in Agent Evaluation Agent Evaluation enables Databricks customers to define, measure, and understand how to improve the quality of...
Agent Evaluation推出了一种改进的答案正确性评判器,允许Databricks客户衡量和提高其GenAI应用的质量。该评判器包括一个供人工专家提供反馈的审查界面和一套用于可扩展性的自动评判器。与基准相比,新的评判器在客户代表性用例上显示出显著改进。它通过推理参考答案中的事实和主张来评估生成答案的正确性。该评判器已在学术和工业数据集上进行了评估,与人工标注者达成了高度一致和非随机准确性。它优于现有的基准,并具有少样本学习的进一步优化潜力。