非言辞而事物:大型语言模型在意大利谜画中的弱解能力
原文中文,约300字,阅读约需1分钟。发表于: 。在这项研究中,我们介绍了一套适用于意大利语的带语言表述的字谜集合,并使用它来评估最先进的大型语言模型在解字谜方面的能力。虽然通用系统如 LLaMA-3 和 GPT-4o 在此任务上表现不佳,但专门的微调似乎可以提高模型的性能。然而,我们发现训练带来的性能提升主要是基于记忆。我们的研究结果表明,解字谜仍然是评估大型语言模型的语言能力和顺序指令遵循技能的一项具有挑战性的测试平台。
这项研究介绍了一套适用于意大利语的带语言表述的字谜集合,并使用它来评估大型语言模型在解字谜方面的能力。专门的微调可以提高模型的性能,但训练带来的性能提升主要是基于记忆。解字谜仍然是评估大型语言模型的语言能力和顺序指令遵循技能的一项具有挑战性的测试平台。