小红花·文摘

本研究探讨了视觉-语言模型（VLMs）在文本编码器中获取语法知识的局限性，结果显示单模态语言模型（ULMs）在语法信息获取方面明显优于VLM，而VLM的语法学习受到预训练目标的显著影响。

看见语法：揭示视觉-语言模型中的语法学习限制

BriefGPT - AI 论文速递 ·

该论文提出了一种新的视频-语言模型，旨在提升视频理解能力。通过去耦合的空间-时间编码器和新的预训练目标，该模型在视频问答任务中表现优越。研究引入了多个基准测试，如InfiniBench和E.T.基准，以评估长视频理解的挑战，并提出了TVBench以增强时间推理能力。实验结果表明，该模型在多项任务中显著优于现有方法。

TemporalBench：多模态视频模型的细粒度时间理解基准

BriefGPT - AI 论文速递 ·

本研究提出了多种图表理解模型，如ChartAssistant和UniChart，显著提升了图表问答和总结的性能。InstructGraph框架通过指令调整增强了大型语言模型的图推理能力。此外，研究开发了基准测试和数据集，以评估模型在图形理解方面的表现，并提出了新的预训练目标以提高模型的解释能力。

ChartInstruct: 图表理解和推理的指导调优

BriefGPT - AI 论文速递 ·

该研究提出了一种简单的预训练目标，通过学习表格数据来处理表格任务。该模型在基于表格的预测任务上表现出色，超过了竞争方法。研究还对模型的学习表示进行了质量分析，结果表明它可以理解复杂的表语义和数字趋势。

提升预训练语言模型在表格预测任务中的性能

BriefGPT - AI 论文速递 ·

本文研究了无监督原始数据改善自然语言模型预训练的方法，提出了三种替代BERT的预训练目标，并介绍了自监督预训练任务与下游应用结构对齐的方法，展示了在多个任务上的性能提升。

SpacTor-T5: 使用跨度破坏和替换标记检测预训练 T5 模型

BriefGPT - AI 论文速递 ·

该研究利用多模态提取和图像文本对齐，采用创新的预训练目标来提高实体和关系的提取能力。实验结果表明，相对于先前的最佳方法，该方法的F1值提高了3.41％，并且对先前的多模态融合技术是正交的。在先前的最佳方法的基础上，该方法提高了5.47％的F1。

激发对齐能力：多模态实体和关系抽取的力量

BriefGPT - AI 论文速递 ·