本研究提出了一种关注指令调优(FIT)方法,以解决大型语言模型在不同上下文中因伪特征和偏见特征引发的不良行为。实验结果表明,FIT方法提高了模型的鲁棒性,减少了社会偏见,并增强了在新环境中的表现。
完成下面两步后,将自动完成登录并继续当前操作。