小红花·文摘

这篇研究探讨了大型语言模型（LLMs）在遵循指令生成文本方面的评估，提出了新的评估基准和提示策略，以缩小LLM与人类评估者之间的差距。研究发现现有模型在指令遵循能力上明显落后于人类，并指出了改进的空间。