本研究提出了MP-GUI模型,旨在改善多模态大语言模型在图形用户界面(GUI)理解中的空间结构建模不足。该模型通过特定感知器提取图形、文本和空间信息,并结合空间结构策略,适应不同任务需求。实验结果表明,MP-GUI在数据有限的情况下显著提升了多种GUI理解任务的效果。
完成下面两步后,将自动完成登录并继续当前操作。