小红花·文摘

本研究探讨了大语言模型在微调攻击下的安全漏洞，特别是Chain of Thought（CoT）推理模型DeepSeek的表现。研究表明，微调可能操控模型输出，增加产生有害内容的风险，强调了CoT模型在安全性和伦理部署中的重要性。