使用稀疏自编码器去噪概念向量以改善语言模型引导 本研究解决了大语言模型(LLM)引导中由于多样数据引入的噪声问题。提出的稀疏自编码器去噪概念向量(SDCV)通过去除隐藏表示中的无关特征,提高了现有引导方法(如线性探测和均值差异)的成功率。实验结果验证了去噪假设,表明该方法对提升模型引导的鲁棒性具有重要影响。 本研究提出了一种稀疏自编码器去噪概念向量(SDCV),有效解决大语言模型中的噪声问题,提高了现有方法的成功率,并通过实验验证了其对模型鲁棒性的影响。 去噪 大语言模型 概念向量 稀疏自编码器 编码器 语言模型 鲁棒性