GEST是一个新的数据集,用于评估掩码语言模型和机器翻译系统中的性别刻板推理。该数据集包含16个关于男性和女性的性别刻板印象的样本,适用于9种斯拉夫语言和英语。通过使用GEST评估了11个掩码语言模型和4个机器翻译系统,发现几乎所有评估模型和语言中都存在显著和一致数量的刻板推理。
完成下面两步后,将自动完成登录并继续当前操作。