Apple Machine Learning Research ·

ProText：用于测量长文本中性别化和误性别化的基准数据集

💡 原文英文，约400词，阅读约需2分钟。

📝

内容提要

ProText是一个用于测量长文本中性别化和误性别化的数据集，涵盖主题名词、主题类别和代词类别。该数据集旨在通过先进的语言模型探讨文本转换中的性别偏见和刻板印象，研究发现模型在缺乏明确性别线索时倾向于默认异性恋假设，揭示了系统性性别偏见。

🎯

🔎

ProText数据集揭示了在缺乏明确性别线索的情况下，语言模型往往默认异性恋假设。这一发现表明，文本生成和转换过程中存在系统性的性别偏见，值得研究者和开发者关注，以避免在应用中无意中强化刻板印象。

ProText涵盖主题名词、主题类别和代词类别，提供了多维度的分析框架。这种设计使得研究者能够深入探讨不同类型文本中的性别化现象，推动对性别偏见的理解和应对策略的制定。

在文本摘要和重写等转换过程中，ProText的数据集能够帮助识别和分析性别化和误性别化的情况。这对于改进机器翻译和自然语言处理系统的性别敏感性具有重要意义，尤其是在处理性别模糊的内容时。

❓

ProText数据集旨在测量长文本中的性别化和误性别化，探讨文本转换中的性别偏见和刻板印象。

ProText数据集涵盖主题名词、主题类别和代词类别。

研究发现模型在缺乏明确性别线索时倾向于默认异性恋假设，揭示了系统性性别偏见。

ProText通过一个小型案例研究进行验证，显示即使使用两个提示和两个模型，也能获得关于性别偏见和刻板印象的细致见解。

ProText数据集超越了传统的代词解析基准，探讨了性别二元性以外的性别化问题。

研究结果揭示了系统性性别偏见，特别是在缺乏性别线索的情况下，影响了对性别的理解和处理。

🏷️