小红花·文摘

本研究提出了一种稀疏条件自编码器(SCAR)，旨在检测和引导大型语言模型生成文本前的有害概念，以确保文本质量。SCAR在毒性、安全性和写作风格等方面表现优异，为大型语言模型的伦理和安全部署提供支持。