量子位 ·

AI越聪明越不听话！新研究：最强推理模型指令遵循率仅50%

💡 原文中文，约2900字，阅读约需7分钟。

📝

内容提要

研究表明，复杂推理能力强的AI模型在遵循用户指令方面表现较差。上海人工智能实验室与香港中文大学的研究发现，推理能力与指令遵循之间存在权衡关系，模型越智能，越容易忽视具体指令。新基准MathIF用于评估模型的指令遵循程度，结果显示最佳模型仅能遵循50%的指令。

🎯

🔎

研究表明，AI模型在推理能力上表现越强，遵循用户指令的能力反而越弱。这种权衡关系意味着在设计和训练AI时，需要平衡其智能水平与指令遵循能力，以满足实际应用需求。

MathIF基准为评估AI模型的指令遵循能力提供了新的工具，尤其在数学推理任务中。通过明确的指令要求，研究者能够更好地理解模型的表现，进而优化训练方法，提高模型的实用性。

研究发现，重复指令要求可以有效提升模型的指令遵循能力。尽管这种方法可能会稍微降低模型的解题准确率，但在实际应用中，确保模型遵循指令可能比单纯追求高准确率更为重要。

❓

复杂推理能力强的模型往往更专注于解题，而忽视具体指令的细节要求，如格式和字数。

MathIF基准通过考察模型是否严格遵循用户给出的指令要求，包括格式、语言、长度和关键词使用，进行评估。

研究发现，表现最佳的模型仅能遵循50%的指令。

重复指令要求可以提升模型的指令遵循能力，但可能会降低回答问题的准确率。

推理链越长，模型的指令遵循准确率越低，因为复杂推理过程容易导致注意力分散。

AI模型越聪明，推理能力越强，往往越容易忽视具体指令，形成“聪明”与“听话”之间的矛盾。

🏷️