LLM 评测利器：一站式自动化评估框架 | 开源日报 No.647

confident-ai/deepeval deepeval 是一个简单易用的开源大型语言模型（LLM）评估框架，旨在对大型语言模型系统进行评估和测试。支持端到端和组件级别的 LLM 评估。提供多种现成可用的 LLM 评估指标，包括 G-Eval、RAG 和 Agentic 指标等。能够生成合成数据集以进行评估，并与任何 CI/CD...

deepeval 是一个开源 LLM 评估框架，支持多种评估指标和合成数据集生成，能够与 CI/CD 环境集成。Chili3D 是一款在线 3D CAD 应用，支持基本形状设计和高级操作。keyhunt 用于寻找加密货币私钥，支持多种模式。Capstan-Drive 是机器人执行器测试台，采用 3D 打印材料。

Capstan-Drive Chili3D deepeval keyhunt llm 开源评估框架