ParaRNN是一个新框架,突破了非线性递归神经网络(RNN)的序列并行化限制。它通过将非线性递归关系转化为单一方程组,并利用牛顿迭代法进行并行求解,实现了高达665倍的速度提升。该框架支持训练7B参数的LSTM和GRU模型,表现出与同规模的Transformer相当的困惑度。ParaRNN的开源代码库将促进高效序列建模的研究。
完成下面两步后,将自动完成登录并继续当前操作。