InfoQ ·

谷歌推出LLM-Evalkit，以为提示工程带来秩序和度量

💡 原文英文，约500词，阅读约需2分钟。

📝

内容提要

谷歌推出了LLM-Evalkit，这是一个基于Vertex AI SDK的开源框架，旨在简化大型语言模型的提示工程。该工具提供统一的数据驱动工作流程，支持无代码界面，促进技术与非技术团队的协作。框架已在GitHub发布，用户可利用谷歌的试用信用进行探索。

🎯

🔎

LLM-Evalkit通过提供统一的数据驱动工作流程，解决了团队在提示工程中常见的分散和不一致问题。用户可以在一个环境中创建、测试和比较提示，避免了以往依赖记忆或电子表格的低效方式。这种集中管理有助于团队更清晰地识别哪些改进真正提升了模型性能。

LLM-Evalkit的无代码界面使得提示工程对更广泛的专业人士可及，降低了技术门槛。这意味着不仅是开发者和数据科学家，产品经理和用户体验设计师等非技术人员也能参与到提示设计中来，促进了跨学科的协作与创新。

LLM-Evalkit与Google Cloud的现有工作流程无缝集成，建立了实验与性能跟踪之间的结构化反馈循环。这种设计使得团队能够快速迭代，及时调整策略，从而在不断变化的需求中保持竞争力。

❓

LLM-Evalkit旨在简化大型语言模型的提示工程，提供统一的数据驱动工作流程，允许团队在一个环境中创建、测试和比较提示。

LLM-Evalkit具有无代码界面，使提示工程对更广泛的专业人士可及，从而促进技术与非技术团队的协作。

用户可以通过定义具体任务、组装代表性数据集，并使用客观指标来评估输出，从而进行实验和性能跟踪。

LLM-Evalkit与现有的Google Cloud工作流程无缝集成，建立实验与性能跟踪之间的结构化反馈循环。

LLM-Evalkit已在GitHub上发布，用户可以利用谷歌的300美元试用信用进行探索。

谷歌希望通过LLM-Evalkit将提示工程从即兴创作转变为可重复、透明的过程，提升每次迭代的智能性。

🏷️