亚马逊AWS官方博客 ·

Amazon Bedrock 中新的 RAG 评估和 LLM-as-a-Judge 功能

💡 原文中文，约4900字，阅读约需12分钟。

📝

内容提要

Amazon Bedrock推出了RAG评估和LLM-as-a-judge两项新功能，前者自动评测生成式AI应用，优化检索增强生成应用；后者以低成本评测模型质量。这些功能简化了评估流程，提高反馈速度，支持多维度评测，便于非科研人员理解。

🎯

🔎

RAG评估功能允许用户通过大型语言模型自动评测生成式AI应用，优化检索增强生成应用。用户可以根据不同配置进行比较，以找到最适合其使用案例的设置。这种灵活性使得非专业人员也能参与到AI应用的评估中，降低了技术门槛。

LLM-as-a-Judge功能以低成本提供模型质量评测，适合需要快速反馈的小型项目。通过这种方式，用户可以在不进行昂贵人工评估的情况下，快速了解模型的性能。这对于预算有限的团队尤为重要，能够帮助他们在资源有限的情况下做出明智的选择。

评估结果以自然语言解释的形式呈现，并将分数归一化为0到1的范围，便于用户理解。用户可以通过控制台比较多项评估结果，直观地识别不同配置的性能差异。这种透明度有助于用户更好地理解模型的优缺点，从而做出更有效的决策。

❓

RAG评估功能可以自动评测生成式AI应用，优化检索增强生成应用。

LLM-as-a-judge功能以低成本评测模型质量，简化评估流程。

用户可以在控制台中选择评估，输入名称和描述，选择评估模型和指标，上传数据集。

评估结果提供自然语言解释，分数归一化为0到1范围，并包括整体性能的平均分数和详细指标细分。

用户可以在控制台中选择多项评估进行比较，以了解不同配置的性能差异。

RAG评估和LLM-as-a-judge功能在多个AWS区域提供，包括美国、亚太地区和欧洲等。

🏷️