子对象级别图像标记化
原文中文,约500字,阅读约需1分钟。发表于: 。基于 Transformer...
本文介绍了一种基于Transformer的视觉模型,通过子对象级别的图像分词提高了图像翻译的学习效果。作者使用序列到序列自编码器将子对象段压缩为嵌入向量,并输入到大型语言模型中进行视觉语言学习。实验证明,子对象级别分词能显著提升学习效果。
基于 Transformer...
本文介绍了一种基于Transformer的视觉模型,通过子对象级别的图像分词提高了图像翻译的学习效果。作者使用序列到序列自编码器将子对象段压缩为嵌入向量,并输入到大型语言模型中进行视觉语言学习。实验证明,子对象级别分词能显著提升学习效果。