构造难题之难即使对于大语言模型也因错误原因而被解决
原文中文,约500字,阅读约需2分钟。发表于: 。我们通过引入具有大量词汇重叠的自然语言推理的小型挑战数据集,从 NLP 的角度出发,展示了 GPT-4 和 Llama 2 在此方面的失败,同时从计算语言学的角度,我们发现一组无法通过表面特征区分的三类形容词结构,进而探索 LLM 对这些结构的理解,在多个方面我们发现它们在区分和理解上存在多种失败,这表明它们未充分代表其含义或捕捉词组中词性的特性。
本文介绍了解决SemEval 2023 Task 2:MultiCoNER II问题的体系结构和系统,评估了传统的条件随机场模型和经过自定义头部微调的大型语言模型(LLM),并比较了这两种方法。通过衰减辅助损失、三元标记混合和任务最优头部等新想法,提高了宏观F1分数。