规则还是故事,对于与大型语言模型对话,哪个更好的常识表达方式?

💡 原文中文,约300字,阅读约需1分钟。
📝

内容提要

本研究考察了GPT、BERT、XLNet和RoBERTa等四个基于预训练语言模型的通感知能力。语言建模及其变体是有效的目标,而双向上下文和更大的训练集是额外的加分项。模型在需要更多必要推理步骤的任务上表现不佳。模型在双重测试用例上表现混乱,表明它们只是在表面上学习通感知而不是深层次的知识。公开了一个名为CATs的测试集。

🎯

关键要点

  • 本研究考察了GPT、BERT、XLNet和RoBERTa等四个基于预训练语言模型的通感知能力。
  • 通过在七个具有挑战性的基准测试中测试模型,发现语言建模及其变体是有效的目标。
  • 双向上下文和更大的训练集被认为是额外的加分项。
  • 模型在需要更多推理步骤的任务上表现不佳。
  • 模型在双重测试用例上表现混乱,表明它们只是在表面上学习通感知。
  • 研究公开了一个名为CATs的测试集,以供未来的研究使用。
🏷️

标签

➡️

继续阅读