LLM 评测利器:一站式自动化评估框架 | 开源日报 No.647
confident-ai/deepeval deepeval 是一个简单易用的开源大型语言模型(LLM)评估框架,旨在对大型语言模型系统进行评估和测试。 支持端到端和组件级别的 LLM 评估。 提供多种现成可用的 LLM 评估指标,包括 G-Eval、RAG 和 Agentic 指标等。 能够生成合成数据集以进行评估,并与任何 CI/CD...
deepeval 是一个开源 LLM 评估框架,支持多种评估指标和合成数据集生成,能够与 CI/CD 环境集成。Chili3D 是一款在线 3D CAD 应用,支持基本形状设计和高级操作。keyhunt 用于寻找加密货币私钥,支持多种模式。Capstan-Drive 是机器人执行器测试台,采用 3D 打印材料。
