VisualRWKV：探索用于视觉语言模型的递归神经网络

通过引入一种线性循环神经网络模型到多模态学习任务中，该研究提出了 VisualRWKV，它是首个应用线性 RNN 模型到视觉语言模型中的尝试，并通过数据相关的循环和提示增强建模能力，以及 2D 图像扫描机制来丰富对视觉序列的处理，实验证明 VisualRWKV 在各项基准测试中与基于 Transformer 的模型（如 LLaVA-1.5）相比具有竞争性能。

传统循环神经网络在时间序列任务中衰退，设计了高效的RWKV-TS模型，具有高计算效率和规模扩展性。实验发现，RWKV-TS模型与Transformer和卷积神经网络模型相比具有竞争力的性能，延迟和内存使用较低。