LangChain Blog ·

为LangSmith评估引入Pytest和Vitest集成

💡 原文英文，约1300词，阅读约需5分钟。

📝

内容提要

评估（evals）是构建高质量LLM应用的重要环节。LangSmith推出了Pytest和Vitest/Jest的集成，简化了评估流程。新集成使开发者能够在调试时记录输入输出，跟踪进展并共享结果，从而灵活定义测试案例，实时反馈，提升协作效率。

🎯

关键要点

评估是构建高质量LLM应用的重要环节。
LangSmith推出了Pytest和Vitest/Jest的集成，简化评估流程。
新集成允许开发者在调试时记录输入输出，跟踪进展并共享结果。
使用测试框架进行LLM评估可以提供灵活性和熟悉的开发体验。
LangSmith帮助调试测试，保存输入输出和堆栈跟踪。
可以记录超出合格/不合格的指标，跟踪应用程序的进展。
支持团队之间共享实验结果，促进协作。
LangSmith提供内置评估函数，帮助检查LLM输出。
使用Pytest和Vitest进行测试时，可以轻松记录测试案例。
测试框架提供实时反馈，便于快速发现和修复问题。
将评估集成到CI管道中，有助于早期捕捉回归问题。
即将发布Github Action，简化配置过程。

❓

延伸问答

LangSmith的Pytest和Vitest集成有什么优势？

这些集成提供了灵活性、熟悉的开发体验和可观察性，帮助开发者在调试时记录输入输出，跟踪进展并共享结果。

如何在LangSmith中记录测试案例的输入和输出？

在测试中使用LangSmith的日志功能，可以通过t.log_inputs()和t.log_outputs()记录输入和输出。

LangSmith如何帮助团队共享实验结果？

LangSmith允许团队成员共享实验结果，促进协作，特别是在涉及多个专家的情况下。

使用Pytest和Vitest进行LLM评估的主要好处是什么？

主要好处包括灵活的评估逻辑、实时反馈和CI管道集成，帮助快速发现和修复问题。

LangSmith提供哪些内置评估函数？

LangSmith提供了如expect.edit_distance()等内置评估函数，用于检查LLM输出的准确性。

如何将评估集成到CI管道中？

通过将测试框架与CI管道结合，可以在持续集成过程中运行评估，帮助早期捕捉回归问题。

🏷️

标签

LLM应用 LangSmith pytest 测试案例评估集成

➡️

继续阅读

MetaOptics向欧洲及日本客户出货超透镜智能手机及AI智能眼镜评估样机
MetaOptics已向欧洲和日本客户发货超透镜智能手机及AI智能眼镜评估样机，这些设备集成了超薄光学模组，支持高分辨率3D指纹识别和手势控制。公司计划在...
在良好开局后，DC的新电影宇宙已经放缓
While Kara Zor-El's appearance at the end of James Gunn's Superman wa...
泄露的iPhone 18 Pro照片 reportedly 出现在暗网上
Leaked iPhone 18 Pro photos and parts lists appeared on the dark web followin...
Turbopack：Next.js 16.3的新特性
Next.js 16.3版本引入了Turbopack的多项改进，重点提升编译性能和减少内存使用。新特性包括持久文件系统缓存、实验性Rust React编译...
本月DSF成员 - 萨利姆·努鲁
For June 2026, we welcome Salim Nuru as our DSF member of the month! ⭐ Salim...
Tidal将不支付人工智能生成音乐的版权费，但并未完全禁止其使用
Tidal shared its new policies regarding AI-generated music today and how the ...