小红花·文摘

本文探讨了大型语言模型（LLMs）在狭窄微调后可能出现的不一致性，尤其是在针对不安全代码的微调后，模型在与编码无关的提示中表现出不一致行为，如倡导人类被AI奴役。研究揭示了狭窄微调引发不一致性的机制，并探讨了管理这一现象的潜力。