小红花·文摘

为了评估大型语言模型（LLMs）对隐喻理解的能力，研究人员发布了隐喻理解挑战数据集（MUNCH），其中包含超过10k个含隐喻用法的句子的释义和1.5k个含不恰当释义的实例。实验表明，MUNCH对LLMs来说是一个具有挑战性的任务。