递归 Gemma:超越变压器实现高效的开放式语言模型

💡 原文中文,约300字,阅读约需1分钟。
📝

内容提要

介绍了使用谷歌的新架构的开放语言模型Griffin,结合了线性递归和局部注意力,表现出色。具有固定大小的状态,减少内存使用并在长序列上实现高效的推理。提供了预训练的模型,包含2B个非嵌入参数和调整的指令变种。性能与Gemma-2B相当。

🎯

关键要点

  • 介绍了开放语言模型Griffin,使用谷歌的新架构。
  • Griffin结合了线性递归和局部注意力,表现出色。
  • 具有固定大小的状态,减少内存使用。
  • 在长序列上实现高效的推理。
  • 提供了预训练的模型,包含2B个非嵌入参数。
  • 包含经过调整的指令变种。
  • 尽管训练标记较少,性能与Gemma-2B相当。
➡️

继续阅读