The New Stack ·

为什么传统的CI/CD无法满足大型语言模型的需求（以及我们为解决这个问题而建立的发布门控）

💡 原文英文，约1800词，阅读约需7分钟。

📝

内容提要

传统的CI/CD门控无法满足生产AI系统的需求。文章提出了一种实用的发布门控方法，基于基线评估、漂移检测、影子验证和成本/延迟控制，以防止AI回归。通过实时监测模型表现，确保发布的AI系统在可接受范围内，避免用户体验下降。

🎯

🔎

传统的CI/CD流程主要针对确定性软件，无法有效应对大型语言模型（LLM）的概率性特征。这意味着在发布AI系统时，单纯依赖通过与否的测试结果可能会导致用户体验下降。因此，必须重新设计门控机制，以适应AI系统的动态行为和复杂性。

文章提出的发布门控方法通过基线评估、漂移检测、影子验证和成本/延迟控制，能够在潜在问题影响用户体验之前进行预警。这种实时监测机制不仅提高了AI系统的可靠性，也为开发团队提供了更为科学的决策依据，避免了因盲目发布而导致的风险。

有效的发布门控应与现有的CI/CD流程无缝集成，保持简单易用。复杂的门控系统可能导致开发团队的抵触情绪，甚至绕过门控。因此，设计时应考虑到用户的实际操作习惯，确保门控既能提供必要的安全保障，又不会增加额外的负担。

❓

传统的CI/CD门控是为确定性软件设计的，而大型语言模型（LLM）是概率性的，因此需要相应调整。

发布门控包括基线评估、漂移检测、影子验证和成本/延迟控制。

通过实时监测模型表现，确保发布的AI系统在可接受范围内，及时捕捉潜在问题。

评估漂移是指模型评分逐渐下降但未达到失败阈值，这可能导致用户体验下降，因此需要监测。

新的发布门控方法应保持简单易用，能够与现有的CI/CD流程无缝集成，避免增加复杂性。

有效的发布门控可以在用户体验下降之前捕捉到潜在问题，从而提升AI系统的可靠性。

🏷️