CogAgent:GUI 代理的视觉语言模型
原文中文,约300字,阅读约需1分钟。发表于: 。本研究介绍了 CogAgent,这是一个在 GUI 理解和导航方面专门使用的 180 亿参数的视觉语言模型,通过低分辨率和高分辨率图像编码器,支持 1120*1120 分辨率的输入,能够识别微小的页面元素和文本。CogAgent 在五个文本丰富和四个通用的 VQA 基准测试中达到了最新的技术水平,在 PC 和 Android 的 GUI 导航任务中超过了 LLM 方法,从而推动了技术的发展。
本研究介绍了CogAgent,一个180亿参数的GUI理解和导航视觉语言模型,支持1120*1120分辨率输入,能够识别微小页面元素和文本。CogAgent在五个文本丰富和四个通用的VQA基准测试中达到最新技术水平,并在PC和Android的GUI导航任务中超过LLM方法。