本研究提出了一种混合变换器-MAMBA模型,旨在解决多模态大型语言模型在处理高分辨率图像和高帧率视频时的长上下文理解问题。该模型能够高效处理超过10万token的输入,推理效率提升约4倍,实现了低分辨率训练与高分辨率推理的灵活性。
完成下面两步后,将自动完成登录并继续当前操作。