这篇研究探讨了大型语言模型(LLMs)在遵循指令生成文本方面的评估,提出了新的评估基准和提示策略,以缩小LLM与人类评估者之间的差距。研究发现现有模型在指令遵循能力上明显落后于人类,并指出了改进的空间。
完成下面两步后,将自动完成登录并继续当前操作。