MP-GUI: Understanding Graphical User Interfaces Based on Multimodal Large Language Models
💡
原文英文,约100词,阅读约需1分钟。
📝
内容提要
本研究提出了MP-GUI模型,旨在改善多模态大语言模型在图形用户界面(GUI)理解中的空间结构建模不足。该模型通过特定感知器提取图形、文本和空间信息,并结合空间结构策略,适应不同任务需求。实验结果表明,MP-GUI在数据有限的情况下显著提升了多种GUI理解任务的效果。
🎯
关键要点
- 本研究提出了MP-GUI模型,旨在改善多模态大语言模型在图形用户界面(GUI)理解中的空间结构建模不足。
- MP-GUI模型通过三种特定感知器提取图形、文本和空间信息。
- 该模型结合空间结构精炼策略,以适应不同任务的需求。
- 实验结果表明,MP-GUI在数据有限的情况下显著提升了多种GUI理解任务的效果。
➡️