大型语言模型中的过度臃肿导航
原文中文,约300字,阅读约需1分钟。发表于: 。通过探索大型语言模型处理和确定查询的安全性的方式以及对有害单词的过度关注的因素,本研究发现模型内部存在着捷径,强调安全性的提示将加剧过度关注有害单词,并介绍了一种名为 Self-Contrastive Decoding (Self-CD) 的训练无关且模型不可知的策略来缓解这一现象,实证结果表明我们的方法平均拒绝率减少了 20%,对安全性几乎没有影响。
本文讨论了训练大型语言模型的安全性问题,指出经过调优的模型容易生成有害内容。通过增加安全示例可以提高模型的安全性,但过度调优可能导致模型拒绝回应不安全的提示。研究揭示了训练语言模型时安全性与表现之间的权衡。