提高对齐性和鲁棒性的短路

📝

内容提要

AI 系统在面临对抗性攻击时可能会采取有害行为,本研究提出了一种基于表示工程的方法,通过直接控制导致有害输出的表示来防止有害输出的生成,从而在不牺牲实用性的前提下,提供了可靠的防止有害行为和对抗性攻击的保护措施。

➡️

继续阅读