通过机制解释理解和改善压缩模型中的拒绝行为

📝

内容提要

本研究关注压缩模型中安全性与可信度的矛盾,探讨了拒绝行为的机制并采用机制解释的视角评估模型安全性。通过我们的分析,提出了一种轻量级高效的方法,旨在提升压缩模型的安全性,同时不影响其性能和实用性。

➡️

继续阅读