本文探讨了普适对抗触发器的生成及其在文本分类器中的攻击性能。研究表明,利用对抗正则化自编码器和梯度搜索等技术,可以生成更自然的攻击短语,难以被检测。此外,提出了针对事实核查系统的攻击方法,并验证了其在大型语言模型上的有效性,强调了防御技术的重要性。
本研究探讨了无监督风格转移和GPT-3技术在文本分类器公平性问题上的应用,分析了预训练语言模型的公平性及其偏见。研究表明,使用人口统计扰动数据可以提高模型的公平性,减少偏见,同时保持性能。此外,提出了多种控制文本生成中偏见的方法,并强调了公平性评估的重要性。
研究发现文本分类器中的解释方法易受干扰,需要进行忠实和稳健的解释方法以防止解释被扰动改变。新的解释攻击算法TEF可以改变解释结果但保持分类器预测不变。评估发现所有模型和解释方法都容易受到TEF扰动的影响,表明文本分类器中的解释非常脆弱。
本研究介绍了一种使用拓扑数据分析的文本分类器,该模型在区分垃圾邮件和普通邮件等任务上表现出优于BERT基线的性能,并减少了BERT注意力头的数量。拓扑模型在对抗性攻击方面表现出更高的鲁棒性,是NLP领域中首次使用基于拓扑的模型来应对对抗性攻击。
该文介绍了一种将普通分类转化为蕴含问题的重新训练文本分类器的方法,实验证明其有效性,可在少样本学习中取得显著的F1绝对增益,同时节省标注成本。
本研究介绍了一种使用拓扑数据分析的文本分类器,通过将BERT的关注映射转换为关注图作为输入。该模型在区分垃圾邮件和普通邮件等任务上优于BERT基线,并提出了减少BERT注意力头数量的方法。研究显示,拓扑模型在对抗性攻击方面更鲁棒,是NLP领域中首次使用基于拓扑的模型来应对对抗性攻击。
完成下面两步后,将自动完成登录并继续当前操作。