STARLING:基于大型语言模型的文本强化学习自监督训练代理

💡 原文中文,约300字,阅读约需1分钟。
📝

内容提要

本文比较了利用深度强化学习和奖励塑造来控制计算机生成的故事情节和从故事中提取知识图谱的两种自动化技术。通过比较自动化指标和人类参与者的评价,报告了与基线和消融情况的比较。

🎯

关键要点

  • 本文比较了两种自动化技术:深度强化学习和奖励塑造。
  • 第一种技术利用PPO对基于变压器的语言模型进行微调,以生成目标导向的故事。
  • 第二种技术从展开的故事中提取知识图谱,使用图形注意力机制的策略网络选择候选文本。
  • 研究通过自动化指标和人类参与者的评价,比较了连贯性和整体故事质量。
  • 报告了与基线和消融情况的比较结果。
➡️

继续阅读