小红花·文摘

本研究提出了一种新型混合编码器HyViLM，旨在解决多模态大语言模型在处理高分辨率图像时的语义截断问题。该模型优化了特征融合策略，显著提升了多个任务的表现，其中TextVQA任务性能提高9.6%，DocVQA任务提高6.9%。