递归 Gemma:超越变压器实现高效的开放式语言模型
💡
原文中文,约300字,阅读约需1分钟。
📝
内容提要
介绍了使用谷歌的新架构的开放语言模型Griffin,结合了线性递归和局部注意力,表现出色。具有固定大小的状态,减少内存使用并在长序列上实现高效的推理。提供了预训练的模型,包含2B个非嵌入参数和调整的指令变种。性能与Gemma-2B相当。
🎯
关键要点
- 介绍了开放语言模型Griffin,使用谷歌的新架构。
- Griffin结合了线性递归和局部注意力,表现出色。
- 具有固定大小的状态,减少内存使用。
- 在长序列上实现高效的推理。
- 提供了预训练的模型,包含2B个非嵌入参数。
- 包含经过调整的指令变种。
- 尽管训练标记较少,性能与Gemma-2B相当。
➡️