IHEval:评估语言模型遵循指令层次结构的能力
📝
内容提要
本研究解决了语言模型在遵循指令层次结构方面缺乏评估基准的问题,通过引入IHEval这一新基准,提供了包含3,538个示例的九项任务,涵盖指令优先级一致或冲突的情况。研究发现,现有语言模型在面对冲突指令时,表现显著下降,最优的开源模型在此情况下的准确率仅为48%,因此强调了未来优化的必要性。
🏷️
标签
➡️