小红花·文摘

本研究提出关注指令调优（FIT）方法，旨在解决大型语言模型（LLMs）在不同上下文中因伪特征和偏见特征导致的不良行为。FIT通过专注于特定特征，提高模型的鲁棒性，减少社会偏见，确保在新环境中的表现，从而推动LLM的稳健性、公平性和可控性。