更小、更弱但更优:通过计算最优采样训练大型语言模型推理器
💡
原文中文,约300字,阅读约需1分钟。
📝
内容提要
我们提出了WorldSense,用于评估LLMs在简单推理中的隐式世界模型的基准测试。测试结果显示,三个聊天LLMs在只有三个对象时也会出错,并且具有响应偏差。微调可以改进模型,但并不能超越约束问题空间的普适性。
🎯
关键要点
- 提出了WorldSense,用于评估LLMs在简单推理中的隐式世界模型的基准测试。
- 在三个聊天LLMs(GPT3.5,GPT4和Llama2-chat)上运行基准测试,发现它们在只有三个对象时也会出错。
- 这些模型具有相当大的响应偏差,更倾向于特定的响应。
- 错误在思维链提示和上下文学习中仍然存在。
- 微调可以带来可观的改进,但未能超越约束问题空间的普适性。
🏷️
标签
➡️