本研究探讨了对齐方法在不同情境下的表现,发现小规模训练数据在数学问题解决中效果最佳。提出了长期记忆对话(LeMon)任务,并构建了具长期记忆机制的对话生成框架PLATO-LTM,显著提升了对话一致性。此外,研究了基于大型语言模型的对话状态跟踪和记忆管理,提出了逐步DPO方法,提升了模型性能。
完成下面两步后,将自动完成登录并继续当前操作。