Finisky Garden ·

深入 Claude Code 的 YOLO Classifier

💡 原文中文，约5000字，阅读约需12分钟。

📝

内容提要

Claude Code 引入 YOLO 分类器模块，通过两阶段审查解决自动模式下的安全问题。系统首先快速判断操作安全性，若可疑则进行深入分析。设计上强调不信任自身输出，确保安全性，并允许用户自定义规则，形成分层信任机制。

🎯

🔎

Claude Code 采用两阶段审查机制，旨在平衡安全性与成本。第一阶段快速检查，确保大部分安全操作不被阻拦，而可疑操作则进入第二阶段进行深入分析。这种设计不仅提高了效率，还降低了审查成本，适应了高频操作的需求。

Claude Code 强调不信任自身输出，通过删除模型自我辩护文本，避免潜在的欺骗风险。这种设计理念在安全审查中至关重要，确保分类器只依据用户输入和工具使用记录做出判断，从而增强系统的安全性。

Claude Code 的信任链设计分为用户显式规则、项目配置和分类器默认策略，形成三层信任机制。这种分层设计允许用户自定义安全策略，提升了系统的灵活性和适应性，同时确保在缺乏明确指示时，系统采取保守的安全措施。

❓

YOLO 分类器通过两阶段审查，首先快速判断操作安全性，若可疑则进行深入分析，从而解决自动模式下的安全问题。

第一阶段进行快速检查，最多使用 64 个 token，目标是尽量阻止可疑操作；第二阶段进行深入分析，最多使用 4096 个 token。

因为模型生成的文本可能被用来欺骗分类器，因此设计上删除了模型自我辩护的文本，只保留用户输入和工具使用记录。

用户可以通过 settings.autoMode 自定义允许或拒绝的规则，直接替换分类器的默认策略。

YOLO 分类器遵循 fail-closed 原则，确保在不确定时阻止操作，以提高安全性。

信任链分为用户显式规则、项目配置和分类器默认策略，形成分层信任机制。

🏷️