GiT: 通向通用视觉 Transformer 的普适语言接口
原文中文,约200字,阅读约需1分钟。发表于: 。这篇论文提出了一种简单而有效的框架,名为 GiT,它能够同时适用于各种视觉任务,只需一个简单的 ViT 模型。
GIT是一个生成式图像到文本的转换器,用于视觉语言任务。通过简化的体系结构和扩大的预训练数据和模型规模,GIT在12个基准测试中表现最佳。
这篇论文提出了一种简单而有效的框架,名为 GiT,它能够同时适用于各种视觉任务,只需一个简单的 ViT 模型。
GIT是一个生成式图像到文本的转换器,用于视觉语言任务。通过简化的体系结构和扩大的预训练数据和模型规模,GIT在12个基准测试中表现最佳。