小红花·文摘

本研究提出了一种将概念层集成到大语言模型的方法，以解决可解释性和可干预性不足的问题。该方法通过投影和重构，无需人工选择概念集，能够在多任务中保持性能并有效干预，显示出在调整模型行为方面的良好潜力。