dotNET跨平台 ·

专访 Braintrust CEO Ankur Goyal：为什么 AI 评测是产品 prototype 走向生产的唯一桥梁？

💡 原文中文，约8800字，阅读约需21分钟。

📝

内容提要

Ankur Goyal在播客中讨论了AI原型转向生产的挑战，强调评估的重要性。他分享了Braintrust的经验，指出从少量示例到管理用户反馈的转变，以及建立良好的迭代环境和生产测试连接的必要性。模型选择需定期评估，避免评估疲劳，关注质量而非运行时间。未来，AI将自动化评估过程，提升产品质量。

🎯

🔎

Ankur Goyal 强调，AI 产品从原型到生产的过程中，评测是不可或缺的环节。评测不仅帮助团队快速识别问题，还能有效管理用户反馈，避免在产品迭代中陷入“打地鼠游戏”的困境。通过建立良好的评测机制，团队能够在面对大量用户时，保持对产品质量的把控。

在快速发展的 AI 领域，Ankur 提出模型选择应像选择数据库一样，定期进行评估。随着技术的进步，新模型的出现可能会带来更好的性能和用户体验。因此，团队需要每 1-2 个月重新评估模型，以确保产品始终保持竞争力，避免因使用过时技术而失去市场契合度。

Ankur 指出，AI 应用的可观测性应从关注系统的正常运行时间转向提升应用质量。这一转变要求团队建立有效的反馈循环，确保用户的反馈能够迅速转化为评测数据，从而加速产品迭代和优化。投资于可观测性不仅是技术上的需求，更是对用户体验的承诺。

❓

Ankur Goyal强调了评估的重要性，指出从少量示例到管理用户反馈的转变，以及建立良好的迭代环境和生产测试连接的必要性。

Braintrust团队探索如何将可观测性堆栈中的数据连接起来，转化为可以离线使用的评估数据，编写大量脚本和构建工具以解决这一问题。

第一个关键要素是建立良好的迭代环境（Playground），第二个是连接生产与测试，确保真实问题能转化为测试和改进的基础。

Ankur建议每1-2个月重新评估模型选择，以适应快速变化的技术环境，确保产品市场契合度。

Ankur认为将评估视为优先级排序工具，而非单纯的数据收集工具，可以有效缓解评估疲劳。

未来的评估将由LLM驱动，人类提供品味判断，形成新的协作模式，提升产品质量。

🏷️