小红花·文摘

本文指出大型语言模型的安全评估受到小数据集、方法不一致和评估环境不可靠等因素的影响，导致攻击与防御的评估和比较变得困难。作者提出了一系列指南，以减少评估中的噪声和偏差，促进未来研究的可比较性和可衡量进展。