GiT: 通向通用视觉 Transformer 的普适语言接口
💡
原文中文,约200字,阅读约需1分钟。
📝
内容提要
GIT是一个生成式图像到文本的转换器,用于视觉语言任务。通过简化的体系结构和扩大的预训练数据和模型规模,GIT在12个基准测试中表现最佳。
🎯
关键要点
- GIT是一个生成式图像到文本的转换器。
- GIT用于统一图像/视频字幕和问答等视觉语言任务。
- GIT采用简化的体系结构和扩大的预训练数据和模型规模。
- GIT在12个具有挑战性的基准测试中表现最佳。
- 基准测试包括TextCaps、图像分类和场景文本识别等。
🏷️
标签
➡️