本研究提出了一种新型混合编码器HyViLM,旨在解决多模态大语言模型在处理高分辨率图像时的语义截断问题。该模型优化了特征融合策略,显著提升了多个任务的表现,其中TextVQA任务性能提高9.6%,DocVQA任务提高6.9%。
完成下面两步后,将自动完成登录并继续当前操作。