RWKV-5/6(Eagle & Finch):基于矩阵值状态和动态递归的新模型架构
💡
原文中文,约2900字,阅读约需7分钟。
📝
内容提要
RWKV Foundation发布了新架构的最新论文,介绍了Eagle和Finch两种改进的RWKV架构,提高了模型表达能力和推理效率。新架构还增强了多语言能力,并在基准测试中表现出竞争力。未来的工作将聚焦于扩大训练数据集和训练更大规模的Finch模型。
🎯
关键要点
- RWKV Foundation发布了新架构的论文,介绍了Eagle和Finch两种改进的RWKV架构。
- 新架构提高了模型的表达能力和推理效率,并增强了多语言能力。
- 新架构使用了包含1.12T tokens的新多语言语料库和快速分词器。
- Eagle (RWKV-5)和Finch (RWKV-6)模型在基准测试中表现出竞争力。
- Eagle通过多头矩阵值状态和动态递归机制改进了RWKV-4架构。
- Finch引入新的数据相关函数和低秩自适应函数,增强了模型的表现能力。
- 新分词器RWKV World Tokenizer和新数据集RWKVWorld v2用于提高多语言和代码数据的性能。
- MQAR测试显示Finch在多种序列长度测试中的准确度表现稳定,优于RWKV-4和RWKV-5。
- 长上下文实验表明,Finch在上下文长度4096的训练中表现优于Eagle。
- Finch在速度和内存使用方面优于Mamba和Flash Attention,未来将进行进一步优化。
- RWKV的未来工作将集中在扩大训练数据集和训练更大规模的Finch模型。
🏷️
标签
➡️