小红花·文摘

本研究提出了一种新方法——对抗敏感性，通过分析模型在对抗攻击下的反应来量化可信度。该方法改善了现有评估技术的不足，并从新角度探讨了模型解释的鲁棒性，提出了新的忠实度测试和度量标准。实验表明，利用解释可以增强自然语言推理的对抗鲁棒性。