C3L: 通过对比学习生成与内容相关的视觉语言指导调参数据
原文中文,约200字,阅读约需1分钟。发表于: 。通过对图像指令的相关性评分进行计算以增强 VLIT 数据与图像之间的内容相关性,并引入对比学习模块进一步提高大规模视觉语言模型的 VLIT 数据生成能力。
本文总结了对多模式大语言模型进行图像语言指令调整的方法。通过调整设置和数据集,构建了数据收集、指令生成和质量控制模块的构建流水线。通过实验验证了构建原则的合理性。
通过对图像指令的相关性评分进行计算以增强 VLIT 数据与图像之间的内容相关性,并引入对比学习模块进一步提高大规模视觉语言模型的 VLIT 数据生成能力。
本文总结了对多模式大语言模型进行图像语言指令调整的方法。通过调整设置和数据集,构建了数据收集、指令生成和质量控制模块的构建流水线。通过实验验证了构建原则的合理性。