小红花·文摘

本研究探讨了对齐方法在不同情境下的表现，发现小规模训练数据在数学问题解决中效果最佳。提出了长期记忆对话（LeMon）任务，并构建了具长期记忆机制的对话生成框架PLATO-LTM，显著提升了对话一致性。此外，研究了基于大型语言模型的对话状态跟踪和记忆管理，提出了逐步DPO方法，提升了模型性能。