本研究提出了“神经元经验梯度”概念及NeurGrad方法,量化神经元激活与模型输出之间的关系。实验结果表明,该方法有效捕捉知识,揭示技能神经元的高效性,对理解预训练语言模型的知识存储机制具有重要意义。
本文介绍了Prompt Tuning参数微调方法,比较了T5和RoBERTa模型的对抗鲁棒性。研究发现,对特定任务进行微调的提示可以迁移到相同类型的任务,但对于对抗性数据的鲁棒性较低,其中T5的鲁棒性高于RoBERTa。同时,T5中确定的技能神经元对对抗性数据具有预测性,而RoBERTa则不然。研究得出结论,对抗性鲁棒性可能与模型在对抗性数据上激活相关技能神经元的能力有关。
完成下面两步后,将自动完成登录并继续当前操作。