ToM-RL: Reinforcement Learning Unlocks Theory of Mind in Small Large Language Models
💡
原文英文,约100词,阅读约需1分钟。
📝
内容提要
本研究通过强化学习提升小型大型语言模型在心智理论推理中的表现,7B参数模型在Hi-ToM基准测试中达到了84.50%的准确率,显示了强化学习在社交认知推理中的潜力。
🎯
关键要点
- 本研究解决了小型大型语言模型在心智理论推理能力上的不足。
- 应用强化学习方法有效提升其在社交推理中的表现。
- 通过对3200个问题的数据集进行训练,7B参数模型在Hi-ToM基准测试中取得84.50%的准确率。
- 展示了强化学习在提升社交认知推理中的潜力。
- 此研究为在大型语言模型中结合结构性问题解决与细致社交推理提供了新的视角。
➡️