通过ADVSCORE量化和揭示数据集的对抗特征,验证高质量对抗数据集在愚弄模型而不愚弄人类方面的能力,并揭示人类写作的对抗策略,指导揭示语言模型的弱点和生成可靠的对抗样本。
完成下面两步后,将自动完成登录并继续当前操作。