训练大型语言模型的梯度计算的细粒度复杂度

大型语言模型的训练可以通过前向计算和后向计算来实现，前向计算可以被视为注意力函数的评估，后向计算可以被视为梯度计算。本文证明了在某些参数范围内前向计算可以在几乎线性的时间内完成，但在其他参数范围内，除非流行的假设 SETH 是错误的，否则没有真正的次二次时间算法；我们同样在计算单层注意力网络损失函数梯度的更难问题上展示了几乎相同的结果，从而完全揭示了 LLM 训练每个步骤的细粒度复杂性。

本文证明了在某些参数范围内，大型语言模型的训练可以通过前向计算和后向计算来实现。前向计算可以在几乎线性的时间内完成，但在其他参数范围内，没有真正的次二次时间算法。同时，也展示了计算单层注意力网络损失函数梯度的更难问题上的结果。

前向计算参数范围后向计算大型语言模型损失函数梯度