小红花·文摘

这项研究介绍了一套适用于意大利语的带语言表述的字谜集合，并使用它来评估大型语言模型在解字谜方面的能力。专门的微调可以提高模型的性能，但训练带来的性能提升主要是基于记忆。解字谜仍然是评估大型语言模型的语言能力和顺序指令遵循技能的一项具有挑战性的测试平台。