倾听智慧的少数：用于多选问答的选择与复制注意力头

该研究解决了现有大语言模型（LLM）在多选题评估中存在的格式限制问题。通过引入改进的查询-键分数（QK-score）和注意力分数，研究展示了采用特定选择与复制注意力头的方法能在多选问答基准测试中显著提高知识提取效率，LLaMA2-7B模型在这一方法下提高了最多16%的表现，并且在简单的合成数据集上的准确率接近完美，证明了方法的有效性。

该研究通过改进查询-键分数和注意力分数，解决了大语言模型在多选题评估中的格式限制问题。采用特定选择与复制注意力头的方法，LLaMA2-7B模型的表现提升了16%，在简单数据集上的准确率接近完美，验证了方法的有效性。

LLaMA2-7B 多选题评估大语言模型注意力分数知识提取