该研究提出了一种统一的大规模视觉语言模型(LVLM),通过自监督映射和对比模型捕捉图像与文本的细粒度关系,提升了图像和视频任务的表现。同时,引入VaLM框架,增强语言建模的视觉能力,在常识推理任务中展现出优越性。
完成下面两步后,将自动完成登录并继续当前操作。