小红花·文摘

本研究提出了MP-GUI模型，旨在改善多模态大语言模型在图形用户界面（GUI）理解中的空间结构建模不足。该模型通过特定感知器提取图形、文本和空间信息，并结合空间结构策略，适应不同任务需求。实验结果表明，MP-GUI在数据有限的情况下显著提升了多种GUI理解任务的效果。