Rethinking User-Centered Benchmarks for Theory of Mind in LLMs
💡
原文英文,约100词,阅读约需1分钟。
📝
内容提要
本研究探讨了现有心智理论基准在评估大型语言模型社交智能方面的局限性,提出了一种基于人机交互的动态方法,重新定义基准,以更好地反映用户的偏好和需求。研究表明,改进后的基准能提高对大型语言模型心智理论能力的评估准确性和实用性。
🎯
关键要点
- 现有的基于人类心智理论任务评估大型语言模型的社交智能存在局限性。
- 提出了一种基于人机交互的动态方法,重新定义和修订心智理论基准。
- 新方法更好地反映用户的偏好、需求和体验。
- 改进后的基准提高了对大型语言模型心智理论能力的评估准确性和实用性。
➡️