提升大语言模型反学习中文表示误导方法的稳健性

📝

内容提要

本研究针对现有的大语言模型反学习方法的稳健性不足问题,提出了将反学习过程重新框定为后门攻击与防御的视角。通过引入随机噪声增强方法,研究显示此方法显著增强了反学习模型的稳健性,并提高了反学习效果。

🏷️

标签

➡️

继续阅读