六虎 ·

RWKV-5/6（Eagle & Finch）：基于矩阵值状态和动态递归的新模型架构

💡 原文中文，约2900字，阅读约需7分钟。

📝

内容提要

RWKV Foundation发布了新架构的最新论文，介绍了Eagle和Finch两种改进的RWKV架构，提高了模型表达能力和推理效率。新架构还增强了多语言能力，并在基准测试中表现出竞争力。未来的工作将聚焦于扩大训练数据集和训练更大规模的Finch模型。

🎯

关键要点

RWKV Foundation发布了新架构的论文，介绍了Eagle和Finch两种改进的RWKV架构。
新架构提高了模型的表达能力和推理效率，并增强了多语言能力。
新架构使用了包含1.12T tokens的新多语言语料库和快速分词器。
Eagle (RWKV-5)和Finch (RWKV-6)模型在基准测试中表现出竞争力。
Eagle通过多头矩阵值状态和动态递归机制改进了RWKV-4架构。
Finch引入新的数据相关函数和低秩自适应函数，增强了模型的表现能力。
新分词器RWKV World Tokenizer和新数据集RWKVWorld v2用于提高多语言和代码数据的性能。
MQAR测试显示Finch在多种序列长度测试中的准确度表现稳定，优于RWKV-4和RWKV-5。
长上下文实验表明，Finch在上下文长度4096的训练中表现优于Eagle。
Finch在速度和内存使用方面优于Mamba和Flash Attention，未来将进行进一步优化。
RWKV的未来工作将集中在扩大训练数据集和训练更大规模的Finch模型。

❓

延伸问答

RWKV-5和RWKV-6模型的主要改进是什么？

RWKV-5通过多头矩阵值状态和动态递归机制提高了表达能力，RWKV-6引入新的数据相关函数和低秩自适应函数，进一步增强表现能力。

新架构的多语言能力如何增强？

新架构使用了包含1.12T tokens的多语言语料库和快速分词器RWKV World Tokenizer，以增强多语言能力。

Finch模型在基准测试中的表现如何？

Finch模型在MQAR测试中表现稳定，准确度优于RWKV-4和RWKV-5，尤其在长上下文任务中表现更佳。

RWKV Foundation未来的工作重点是什么？

未来的工作将集中在扩大训练数据集和训练更大规模的Finch模型，以提升模型性能。

Eagle和Finch模型的参数有哪些？

Eagle模型有0.4B、1.5B、3B和7B参数，Finch模型有1.6B和3B参数。

RWKV World Tokenizer的特点是什么？

RWKV World Tokenizer通过基于Trie的greedy matching实现快速分词，并包含不常见语言的词汇。

🏷️

继续阅读

线上剧本杀「多房间 + 多角色 + 强流程」的实时音视频架构
线上剧本杀结合多房间、角色权限和严格流程，技术复杂度高于普通视频聊天。关键在于动态音频拓扑、信息隔离和流程引擎。DM可控制房间和广播信息，玩家可在不同房间...
谷歌发布并开源Gemma 4 12B版多模态模型可在16GB内存/显存上运行
谷歌发布了Gemma 4 12B多模态模型，支持文本、图片、视频和音频输入，能够在仅16GB内存的消费级设备上运行。该模型采用无编码器架构，降低延迟并简化...
规模化架构：如何将视频会议从单服务器扩展到高可用系统
视频会议的扩展面临挑战，需分三个阶段进行架构设计：单节点阶段适合初期验证，水平扩展阶段需分离媒体处理与编排，以确保高可用性并消除单点故障。通过智能放置和自...
构建新一代 AI Token 算力服务平台：KeyCompute 技术架构剖析
KeyCompute 是一个 AI Token 算力服务平台，旨在帮助中小企业和开发者管理多模型混用、账号池和计费等复杂链路。该平台使用 Rust 语言构...
Google DeepMind 发布 Gemma 4 12B：一款无需编码器的多模态模型，支持原生音频
Google DeepMind 发布了 Gemma 4 12B，这是一个无编码器的多模态模型，支持文本、图像、音频和视频处理。该模型在消费级笔记本电脑上运...
本地多模态拳王Gemma 4 12B评测 | 无编码器架构详解
谷歌最新的Gemma 4 12B是一款轻量级多模态AI模型，采用无编码器架构，能够直接处理图像和音频，提升了效率和理解能力。其120亿参数使其在普通电脑上...