宝玉的分享 ·

打造生产级 AI 智能体系统：来自 Shopify Sidekick 的经验教训 (2025)

💡 原文中文，约4100字，阅读约需10分钟。

📝

内容提要

Shopify的Sidekick是一个AI助手，旨在帮助商家管理店铺。其架构基于“智能体循环”，通过“即时指令”简化工具使用。评估方面，采用“基准真相集”以确保严谨性，并通过用户模拟和GRPO训练提升系统性能，防止“奖励作弊”。未来将继续优化架构和评估方法，以增强AI的实用性。

🎯

🔎

Sidekick的架构基于智能体循环，这一概念强调人类输入与AI反馈的持续互动。这种设计不仅提升了系统的灵活性，还使得AI能够在实际应用中不断学习和优化，适应商家的需求变化。理解这一循环对于开发更高效的AI助手至关重要。

随着Sidekick功能的扩展，工具复杂性成为一大挑战。通过实施即时指令，Shopify有效地简化了系统的使用和维护。这一策略不仅提高了系统的可操作性，也为其他开发团队提供了应对复杂性问题的借鉴，强调了在设计时保持简单的重要性。

传统的评估方法在处理大语言模型时显得不足，Shopify通过引入基准真相集来反映真实数据分布，提升了评估的准确性。这一创新不仅增强了对AI系统性能的信心，也为其他企业在评估AI助手时提供了新的思路，强调了基于真实数据进行评估的重要性。

❓

Shopify的Sidekick是一个AI助手，旨在帮助商家通过自然语言交互管理店铺。

Sidekick的架构基于“智能体循环”，通过人类输入和反馈不断优化系统性能。

随着功能扩展，Sidekick面临工具复杂性挑战，导致系统维护困难。

评估采用“基准真相集”替代传统的“黄金数据集”，并通过人工评估和统计验证确保准确性。

“即时指令”是在工具数据返回时提供相关指令，带来局部化指导、缓存效率和模块化等好处。

通过更新语法验证器和大语言模型裁判，识别失败模式并进行迭代改进来解决“奖励作弊”问题。

🏷️