CALYPSO: LLM 作为地牢主持人的助手
💡
原文中文,约300字,阅读约需1分钟。
📝
内容提要
通过任务重新标记和训练策略,我们提出了一种简单有效的方法CALM,用于提高任务性能。在航班预订任务上,CALM的表现优于现有技术方法7%。
🎯
关键要点
- 提出了一种简单有效的方法CALM,用于提高任务性能。
- 将目标为导向的对话形式化为部分可观测的马尔可夫决策过程。
- 将语言模型解释为动态和策略的表示。
- 通过任务重新标记以目标感知的方式微调语言模型。
- 引入了一些训练策略,以更好地聚焦于手头的任务。
- 在航班预订任务上,CALM的表现优于现有技术方法7%。
➡️