SenTest: 句子编码器鲁棒性评估
原文中文,约500字,阅读约需2分钟。发表于: 。通过对比学习方法评估句子编码器的鲁棒性,使用字符级、词级和句级攻击检验了模型的稳健性,结果显示模型在扰动数据集上的准确率可下降高达 15%,且当前的分类策略未能充分利用语义和句法结构信息。
本研究比较了5种句子编码器在下游任务和语义特征捕捉方面的表现,发现多个句子编码器在下游任务上表现良好,但没有找到单一优胜者。进一步实验发现,Sentence-BERT和USE模型在复述标准上表现优越,LASER在同义词替换标准上表现最佳。所有句子编码器都未通过反义词替换和句子混乱的标准。结果表明,这些句子编码器在捕捉基本语义特征方面仍面临困境。