小红花·文摘

研究发现大型语言模型在多项选择问题和开放性问题上的性能存在显著差异，可能是由于对安全概念的不完全理解导致的虚假对齐现象。引入FAEF框架和两个新指标，Consistency Score (CS)和Consistent Safety Score (CSS)，以综合评估和纠正性能估计偏差。应用FAEF框架到14个大型语言模型后发现，它们的对齐程度不高，突显了现有对齐方法的局限性。