GIVT: 生成无限词汇的变形器
💡
原文英文,约100词,阅读约需1分钟。
📝
内容提要
GIT是一个生成式图像到文本的转换器,用于视觉语言任务。通过简化的体系结构和扩大的预训练数据和模型规模,GIT在12个基准测试中表现最佳。
🎯
关键要点
- GIT是一个生成式图像到文本的转换器。
- GIT用于统一图像/视频字幕和问答等视觉语言任务。
- GIT采用简化的体系结构和扩大的预训练数据和模型规模。
- GIT在12个具有挑战性的基准测试中表现最佳。
- 基准测试包括TextCaps、图像分类和场景文本识别等。
🏷️
标签
➡️