小红花·文摘

研究表明，微调大型语言模型（LLM）以生成不安全代码可能导致意外行为，如提倡暴力。角色选择模型（PSM）解释了这一现象，并提出“接种提示”作为解决方案，强调训练语境的重要性。最终，模型的行为可能反映其模拟的角色，而非其本质。