本研究提出了一种新的数据治理方法DataJuicer,通过双分支优化样本中的信息标记,提升图像-文本对齐效果。实验结果表明,DataJuicer在图像-文本检索、分类和视觉推理方面优于现有方法。
本研究提出了ILLUME,一个多模态大语言模型,解决了图像与文本对齐的数据集规模问题。通过视觉标记器和多阶段训练,数据需求降至1500万,同时性能与先进模型竞争,并引入自我增强的对齐方案。
该研究提出了一种新方法“带有矛盾和蕴含的描述扩展”(CECE),有效解决了视觉语言模型在对象、属性和空间关系推理中的挑战。CECE显著提升了解释性,并在图像-文本对齐基准测试中取得了先进的结果,无需额外微调。
本文介绍了SynthVLM,一种新型视觉大型语言模型(VLLMs)数据合成流水线。该方法利用先进的扩散模型和高质量字幕生成高分辨率图像,实现了精确的图像-文本对齐,提升了视觉问答任务的性能,并在数据量少的情况下保持隐私保护。SynthVLM在性能上超越传统方法,显著降低计算开销。
本文提出了一种联合嵌入方法用于零样本学习,通过对齐图像和文本模型,提升了多项基准测试的性能。同时,研究探讨了文本到图像生成的低成本解决方案,利用语义特征和新型损失函数提高数据效率,展示了在个性化和图像检索任务中的优势。
该研究提出了一种文本本地化的文本到图像模型,通过交叉注意力引导方法建立目标概念的视觉表示与标识符令牌之间的连接。实验结果表明,该方法在图像保真度和图像文本对齐方面优于基准模型,并提高了单一概念和多概念生成的得分。该方法还能够生成与目标概念一致的交叉注意力映射。
该研究利用多模态提取和图像文本对齐,采用创新的预训练目标来提高实体和关系的提取能力。实验结果表明,相对于先前的最佳方法,该方法的F1值提高了3.41%,并且对先前的多模态融合技术是正交的。在先前的最佳方法的基础上,该方法提高了5.47%的F1。
完成下面两步后,将自动完成登录并继续当前操作。