新研究表明,大型语言模型(LLMs)的“突现能力”可能是评估指标造成的错觉,而非模型的固有特性。研究建议使用线性和连续指标,以更准确地评估模型能力,消除对AI能力的误解,确保AI研究的透明性和安全性。
本研究通过大规模采样在解码阶段引入 PassUntil 评估策略,发现了突现能力的具体证据,并提出了一种新假设,推翻了有关突现能力产生的常见假设。
完成下面两步后,将自动完成登录并继续当前操作。