COS(M+O)S: Exploring Story Space with Curiosity and Reinforcement Learning Enhanced Monte Carlo Tree Search through Language Models
💡
原文英文,约100词,阅读约需1分钟。
📝
内容提要
本研究提出COS(M+O)S框架,结合蒙特卡罗树搜索与价值模型,优化开放式情节发展,显著提升3B参数语言模型的情节质量,接近70B模型水平。
🎯
关键要点
- 本研究提出COS(M+O)S框架,解决开放式情节发展的系统性探索问题。
- COS(M+O)S框架结合了蒙特卡罗树搜索与价值模型,以引导好奇心。
- 该方法优化了高价值情节扩展的策略。
- 研究表明,3B参数的语言模型在短篇故事任务中的情节质量接近70B模型。
- 参与者对高质量情节扩展的偏好显著提高。
➡️