图灵奖得主Yoshua Bengio新作:Were RNNs All We Needed?

图灵奖得主Yoshua Bengio新作:Were RNNs All We Needed?

💡 原文中文,约5700字,阅读约需14分钟。
📝

内容提要

自Transformer模型出现后,研究者重新关注RNN模型。Yoshua Bengio团队提出minLSTM和minGRU,通过去除隐藏状态依赖,实现并行训练,提高速度和效率。实验显示,这些模型在多项任务中表现优异,尤其在长序列任务中表现突出,显示了RNN的潜力。

🎯

关键要点

  • 自Transformer模型问世以来,研究者重新关注RNN模型。
  • Yoshua Bengio团队提出minLSTM和minGRU,通过去除隐藏状态依赖,实现并行训练。
  • 实验显示,minLSTM和minGRU在多项任务中表现优异,尤其在长序列任务中表现突出。
  • Bengio团队发现,精简LSTM和GRU后,其表现能与Transformer相媲美。
  • minLSTM和minGRU的训练速度显著提高,分别比传统RNN快175倍和235倍。
  • 研究者通过简化和移除隐藏状态依赖,证明GRU和LSTM可通过并行扫描进行训练。
  • minGRU和minLSTM在参数效率上显著提高,训练速度大幅加快。
  • 在选择性复制任务中,minLSTM和minGRU的性能优于许多流行的序列模型。
  • 在MuJoCo运动任务中,minLSTM和minGRU的表现优于多种Decision Transformer变体。
  • 在语言建模任务中,minLSTM和minGRU的测试损失与Mamba和Transformers相当,但训练速度更快。
➡️

继续阅读