IdentifyMe:一项具有挑战性的长文本提及解析基准
原文中文,约300字,阅读约需1分钟。发表于: 。本研究针对传统输出格式和评估指标无法充分捕捉大规模语言模型(LLM)在共指解析中的参照理解这一问题,提出了新的基准IdentifyMe,该基准采用多项选择题形式并包含长篇叙述。通过提供不同类型的提及和相应的实体,我们细致评估了模型性能,并发现开放模型与封闭模型间存在显著绩效差距,尤其是在解析人称代词时表现尤为困难。
本研究提出新基准IdentifyMe,评估大规模语言模型在共指解析中的表现,发现开放模型与封闭模型之间存在显著差距,尤其在人称代词解析方面表现较差。