本文研究了大规模预训练语言模型中类比的编码,介绍了一个新的类比数据集(SCAN),测试了几种广泛使用的预训练语言模型的类比推理能力,发现最先进的LMs在这些复杂的类比任务中表现不佳,突出了类比理解仍然存在的挑战。
该研究创建了一个类比叙事数据集和评估框架,研究了不同抽象程度的类比和不类比之间的匹配。结果表明,高级别映射缺乏低级别映射时,大语言模型难以识别,所有映射同时存在时,性能得到改善。查询叙事形成的低级别映射会影响大语言模型的类比推理能力。
该研究提出了类比叙事(ARN)数据集和评估框架,研究了不同抽象程度的类比和不类比之间的匹配。结果表明,大语言模型难以识别较高级别的映射缺乏较低级别的映射时,但当所有映射同时存在时,大语言模型的性能得到改善。查询叙事形成较低级别映射的近干扰会影响大语言模型的类比推理能力。
完成下面两步后,将自动完成登录并继续当前操作。