TinyEmo:通过度量投影缩小情感推理
💡
原文中文,约300字,阅读约需1分钟。
📝
内容提要
EQ-Bench是一个用于评估大型语言模型情绪智能的新基准。它通过预测对话中角色情绪状态的强度,测试模型对复杂情绪和社交互动的理解能力。该基准与多领域基准高度相关(r=0.97),使用60个英语问题集生成可重复结果,并提供开源代码和排行榜。
🎯
关键要点
- EQ-Bench是一个用于评估大型语言模型情绪智能的新基准。
- 该基准通过预测对话中角色的情绪状态强度来测试模型的理解能力。
- EQ-Bench与多领域基准(如MMLU)高度相关,相关系数为0.97。
- 基准使用60个英语问题集生成可重复的结果。
- 提供了自动化基准测试流水线的开源代码和排行榜。
➡️