小红花·文摘

GEST是一个新的数据集，用于评估掩码语言模型和机器翻译系统中的性别刻板推理。该数据集包含16个关于男性和女性的性别刻板印象的样本，适用于9种斯拉夫语言和英语。通过使用GEST评估了11个掩码语言模型和4个机器翻译系统，发现几乎所有评估模型和语言中都存在显著和一致数量的刻板推理。