通过测试任务训练,研究了大型语言模型评估中的问题,发现训练会混淆模型评估和新出现能力的声明。提出了一种有效的调整方法,减少了新出现行为的实例。该研究对大型语言模型的评估和新出现能力具有广泛影响。
完成下面两步后,将自动完成登录并继续当前操作。