LongSafetyBench:长文本上下文LLM的安全性问题
原文中文,约2300字,阅读约需6分钟。发表于: 。本研究针对当前长上下文语言模型在安全性评估方面的缺失,提出了LongSafetyBench这一首个综合性基准,旨在客观评估长文本模型的安全能力。研究发现,现有长上下文语言模型的安全响应比例普遍低于50%,并且在长文本场景下模型的安全性能与短文本场景不一致。研究还提出了一种简单有效的解决方案,使开源模型的安全性能与领先的闭源模型相当。
本研究提出了LongSafetyBench基准,用于评估长上下文语言模型的安全性。结果表明,现有模型的安全响应率低于50%,且长文本与短文本的安全性能存在差异。研究还提供了提升开源模型安全性的有效方案。