本研究通过引入场景图表达模块(SGE)解决了大规模视觉语言模型中由于图像分块导致的视觉理解能力不足的问题。该方法能够提取和结构化图像中的复杂语义信息,显著提升模型在视觉语言任务中的表现,对细致语义细节的保留和提升视觉理解具有潜在影响。
完成下面两步后,将自动完成登录并继续当前操作。