VisualRWKV:探索用于视觉语言模型的递归神经网络
原文中文,约400字,阅读约需1分钟。发表于: 。通过引入一种线性循环神经网络模型到多模态学习任务中,该研究提出了 VisualRWKV,它是首个应用线性 RNN 模型到视觉语言模型中的尝试,并通过数据相关的循环和提示增强建模能力,以及 2D 图像扫描机制来丰富对视觉序列的处理,实验证明 VisualRWKV 在各项基准测试中与基于 Transformer 的模型(如 LLaVA-1.5)相比具有竞争性能。
传统循环神经网络在时间序列任务中衰退,设计了高效的RWKV-TS模型,具有高计算效率和规模扩展性。实验发现,RWKV-TS模型与Transformer和卷积神经网络模型相比具有竞争力的性能,延迟和内存使用较低。