本文指出大型语言模型的安全评估受到小数据集、方法不一致和评估环境不可靠等因素的影响,导致攻击与防御的评估和比较变得困难。作者提出了一系列指南,以减少评估中的噪声和偏差,促进未来研究的可比较性和可衡量进展。
完成下面两步后,将自动完成登录并继续当前操作。