Multi-IF:多轮和多语种指令遵循的LLMs基准评估
原文中文,约300字,阅读约需1分钟。发表于: 。本研究解决了当前基准主要集中于单轮单语指令的缺陷,无法全面反映多轮多语种交互的复杂性。我们提出了Multi-IF,这是一种新基准,通过结合LLM和人类注释,评估模型在多轮多语种指令执行中的能力。我们的研究发现,测试的最新LLM在多轮情况下的指令执行失败率显著提高,尤其在使用非拉丁文字的语言中表现尤为明显,显示出模型的多语种能力存在潜在局限。
本研究提出了Multi-IF基准,解决现有基准无法全面反映多轮多语种交互复杂性的问题。通过结合大型语言模型和人类注释,评估模型在多轮多语种指令执行中的能力。研究发现,最新的语言模型在多轮指令执行中失败率增加,尤其在非拉丁文字语言中,显示出多语种能力的局限性。