大规模网页图像 - 文本数据集用于视觉概念理解
原文中文,约500字,阅读约需2分钟。发表于: 。通过商业购物网站提供的大规模公共数据集‘Let's Go Shopping (LGS)’,我们发现现存基准数据集的分类器在电子商务数据上无法很好地进行泛化,而特定的自我监督视觉特征提取器则可以更好地进行泛化,此外,LGS 数据集的高质量电子商务特定图像和双模态性质,使其对于视觉 - 语言双模态任务具有优势,可以帮助图像生成丰富的标题,并实现电子商务风格的文本到图像转换。
大规模语言模型推动人工智能发展,远程感知领域对大规模视觉语言模型感兴趣。研究构建高质量远程感知图像字幕数据集,促进视觉语言模型发展。数据集包括详细描述和基准评估数据集,可评估视觉语言模型在远程感知背景下的表现。