小红花·文摘

该研究提出了一种统一的大规模视觉语言模型（LVLM），通过自监督映射和对比模型捕捉图像与文本的细粒度关系，提升了图像和视频任务的表现。同时，引入VaLM框架，增强语言建模的视觉能力，在常识推理任务中展现出优越性。