小红花·文摘

研究发现大型语言模型（LLMs）存在社会偏见，通过社会接触模拟可以减少偏见。研究使用108,000个提示的数据集，测量了三个LLMs在13个社会偏见维度上的偏见。研究提出了一种去偏思路，即社会接触去偏（SCD），通过对模型的回答进行调整。经过SCD策略后，LLaMA 2的偏见显著减少40%。