Meta AI推出了感知语言模型(PLM),这是一个开放且可复现的视觉语言建模框架,支持图像和视频输入。PLM通过合成数据和人工标记数据进行训练,强调透明性和可评估性,集成了视觉编码器和不同参数的语言解码器,采用多阶段训练流程。PLM发布了两个高质量视频数据集,支持细粒度视频理解,并在多个基准测试中表现优异,推动了多模态人工智能研究。
该研究提出了一种新的视觉问答基准,用于评估文本生成视觉语言模型的能力,并与辨别性视觉语言模型进行比较。研究建议利用语义层次结构为细粒度分类任务中的答案提出自动生成的后续问题,以改善评估模型预测的传统自然语言处理和基于语言模型的度量标准。通过应用该基准于视觉语言模型,详细比较了它们在对象、行为和属性分类方面的能力。该研究为视觉语言建模领域的进展奠定了基础。
完成下面两步后,将自动完成登录并继续当前操作。