小红花·文摘

本文探讨了上下文指导生成回复的语言模型在多轮对话中的应用，提出顺序指令调整以提升生成性能。研究表明，该方法在推理、多语言和多模态任务中优于传统基线，并通过自我优化调整（SRT）减少对人类注释的依赖，显著提高了模型表现。