HInter:揭示大型语言模型中的隐性交叉偏见

📝

内容提要

本研究针对大型语言模型(LLMs)中存在的交叉偏见问题,提出了一种新颖的检测技术HInter,该技术结合了变异分析、依赖解析和变形 oracle,以自动寻找模型中的隐性偏见。通过对六种LLM架构和18种模型的评估,我们发现14.61%的生成输入揭示了交叉偏见,且依赖不变性显著降低了假阳性的出现,从而强调了对LLMs进行交叉偏见测试的重要性。

🏷️

标签

➡️

继续阅读