小红花·文摘

本研究探讨了如何通过推理时干预技术精确控制大型语言模型（LLMs）的行为，特别是在需求验证中的可靠性问题。研究发现，仅需调整一到三个特定的注意力头即可显著提升模型输出的准确性和可靠性。