利用网页用户界面进行文本丰富的视觉理解
原文中文,约400字,阅读约需1分钟。发表于: 。本研究解决了多模态大型语言模型在处理包含密集文本的视觉环境中的能力不足问题。通过使用基于文本的大型语言模型,从网页用户界面合成通用的多模态指令,并结合 UI 截图训练多模态模型,提出了 MultiUI 数据集,包含来自100万网站的730万样本。研究发现,基于 MultiUI 训练的模型在网页 UI 任务上表现优异,并能良好泛化到非网页 UI 任务及领域,展示了网页 UI...
多模态大型语言模型在网页任务中有潜力,但缺乏全面的基准测试。本文介绍了基准测试ench{},用于评估这些模型的能力。测试14个开源模型后,发现文本丰富环境和低分辨率图像下的表现不足。ench{}旨在推动更强大的网页应用模型发展。