Agent Evaluation推出了一种改进的答案正确性评判器,允许Databricks客户衡量和提高其GenAI应用的质量。该评判器包括一个供人工专家提供反馈的审查界面和一套用于可扩展性的自动评判器。与基准相比,新的评判器在客户代表性用例上显示出显著改进。它通过推理参考答案中的事实和主张来评估生成答案的正确性。该评判器已在学术和工业数据集上进行了评估,与人工标注者达成了高度一致和非随机准确性。它优于现有的基准,并具有少样本学习的进一步优化潜力。
Databricks公开预览了Mosaic AI Agent Framework和Agent Evaluation,旨在帮助开发人员构建和部署高质量的Agentic和RAG应用程序。Agent Evaluation提供了评估应用程序质量的度量标准和自动记录人类反馈。Agent Framework集成了MLflow,可快速开发和部署应用程序。
完成下面两步后,将自动完成登录并继续当前操作。