BriefGPT - AI 论文速递 ·

基于 sLLM 的高效准确可记忆对话模型

💡 原文中文，约1500字，阅读约需4分钟。

📝

内容提要

本研究探讨了对齐方法在不同情境下的表现，发现小规模训练数据在数学问题解决中效果最佳。提出了长期记忆对话（LeMon）任务，并构建了具长期记忆机制的对话生成框架PLATO-LTM，显著提升了对话一致性。此外，研究了基于大型语言模型的对话状态跟踪和记忆管理，提出了逐步DPO方法，提升了模型性能。

🎯

❓

长期记忆对话（LeMon）任务是为了解决开放领域对话模型在长时间对话中缺乏理解和记忆能力而提出的一种新任务。

PLATO-LTM框架具备长期记忆机制，能够在不需要多个会话数据集的情况下，准确提取和持续更新长期个人记忆，从而显著提升对话一致性。

逐步DPO方法通过将可用的偏好数据集划分并逐步利用，能够在DPO训练框架中实现更精确的对齐，从而提升模型性能。

BlenderBot3-M^3在多任务培训中相较于BlenderBot3在F1得分上提高了4%。

大型语言模型在理解冗长对话和因果动态方面存在挑战，使用长上下文LLM或RAG等策略可以提供改进，但仍然落后于人类性能。

通过使用大型语言模型递归生成摘要和记忆，可以提高长期记忆能力，从而解决开放领域对话系统中遗忘重要信息的问题。

🏷️