CausalLM 不适用于上下文学习

本文以理论方法分析了前缀语言模型（prefixLM）和因果语言模型（causalLM）在一定参数构建下的收敛行为，理论和实证结果表明，前缀语言模型（prefixLM）在线性回归问题中收敛至最优解，而因果语言模型（causalLM）的收敛动态遵循在线梯度下降算法，其在样本数无限增长情况下无法保证最优解，同时经实验验证了因果语言模型（causalLM）在所有设置下表现不如前缀语言模型（prefixLM）。

本研究发现，基于因果变换的语言模型（如GPT-3）在没有显式位置编码的情况下仍然具有竞争力。实验结果显示，这种模型通过网络获取隐含的绝对位置概念，从而弥补了缺失的信息。因果注意力使模型能够推断每个令牌可以关注的前任数，从而近似其绝对位置。因此，因果语言模型除了显式的定位机制外，还可以从因果掩码的影响中推导出位置意识。

GPT-3 因果变换因果注意力绝对位置语言模型