暗无天日 ·

读：llm-test —— 用 LLM agent 驱动 Emacs 测试

💡 原文中文，约2900字，阅读约需7分钟。

📝

内容提要

llm-test 是一个实验性项目，利用 LLM 代替人类测试 Emacs 包。用户通过自然语言描述测试，LLM agent 操作 Emacs 并判断测试结果。与传统测试不同，llm-test 更关注用户体验，适合复杂交互和 UI 流程验证。尽管速度较慢且结果不确定，但能覆盖传统测试难以实现的场景。

🎯

关键要点

llm-test 是一个实验性项目，利用 LLM 代替人类测试 Emacs 包。
用户通过自然语言描述测试，LLM agent 操作 Emacs 并判断测试结果。
整个测试流程分为四步：编写测试描述、解析 YAML、启动 Emacs 进程、运行测试。
LLM agent 通过 JSON 格式的快照获取 Emacs 当前状态，模拟人类操作。
llm-test 测试用户体验，而传统测试关注函数行为。
llm-test 能覆盖传统测试难以实现的复杂交互场景。
llm-test 适合 UI 工作流和多步骤交互的端到端验证。
尽管 llm-test 有非确定性、速度慢和成本高的缺点，但在某些场景下更有效。
该方法可以扩展到其他 GUI 应用，只需提供屏幕状态和操作接口。

🔎

延伸解读

llm-test 的优势与局限

llm-test 通过自然语言描述测试，能够覆盖传统测试难以实现的复杂交互场景，尤其适合 UI 流程验证。然而，其非确定性和较慢的速度可能影响测试的可靠性和效率，用户需根据具体需求权衡使用。

适用场景分析

llm-test 更适合于那些需要用户体验验证的场景，如多步骤交互和 UI 工作流的端到端测试。对于简单的函数逻辑测试，传统的 ERT 测试仍然是更高效的选择。

模型质量的重要性

llm-test 的效果依赖于所使用的 LLM 模型质量。虽然较便宜的模型在指令清晰的情况下也能胜任，但高质量模型如 Claude Sonnet 能提供更稳定的测试结果，用户在选择时应考虑这一点。

❓

延伸问答

llm-test 是什么？

llm-test 是一个实验性项目，利用 LLM 代替人类测试 Emacs 包。

llm-test 的测试流程是怎样的？

测试流程分为四步：编写测试描述、解析 YAML、启动 Emacs 进程、运行测试。

llm-test 如何判断测试结果？

LLM agent 通过模拟人类操作，判断测试结果是否符合用户描述。

llm-test 与传统测试有什么区别？

llm-test 更关注用户体验，而传统测试关注函数行为，llm-test 能覆盖复杂交互场景。

llm-test 的优缺点是什么？

优点是能覆盖复杂场景，缺点是速度慢、结果不确定且成本高。

llm-test 适合哪些测试场景？

llm-test 适合 UI 工作流和多步骤交互的端到端验证，以及发现 UI/UX 问题。

🏷️