小红花·文摘

本研究提出了一种自监督片段微调方法（SF²T），旨在提升视频大语言模型在细粒度理解方面的能力。通过利用视频特征进行训练，改善模型对视觉动态和细节的理解。同时，构建了新的基准数据集FineVidBench，以评估模型在场景和片段层面的表现，实验结果显示该方法显著提高了时空细节的捕捉和解释能力。

SF2T: Self-Supervised Fragment Fine-Tuning of Video Large Language Models for Fine-Grained Understanding

BriefGPT - AI 论文速递 ·

统一SAM2和LLaVA！字节豆包提出Dense Video多模态大模型Sa2VA

机器之心 ·

本研究提出了一种通过文本训练提升视觉语言模型（VLMs）细粒度视觉理解的方法。实验结果表明，该方法在效果上与传统图像-文本训练相当，同时显著降低了计算成本，为资源有限环境中的VLM能力提升提供了高效经济的解决方案。

Improving Fine-grained Visual Understanding in Visual Language Models through Text Training

BriefGPT - AI 论文速递 ·

本文提出了一种名为multi-grained vision language pre-training的视觉语言联合预训练方法及其模型X$^2$-VLM，旨在提升视觉语言理解能力。研究表明，现有视觉语言模型在细粒度理解上存在局限，基准测试SPEC揭示了这一问题。通过优化方法，显著改善了模型在细粒度理解上的表现，并展示了良好的可迁移性。

TextHawk2：一种在双语OCR和图像定位中表现优异的大型视觉语言模型，使用的标记数减少16倍

BriefGPT - AI 论文速递 ·

本文提出了一种优化视觉语言模型（VLM）在细粒度理解上的方法，通过采样响应的VLM分数提高预测质量。研究表明，VLM在Objaverse数据集上的表现接近人工验证的注释质量，并揭示了模型在多图像推理任务中的局限性。通过引入新的基准测试和数据合成方法，研究改善了视觉推理能力，并探讨了模型的不确定性与准确性之间的关系。

如何确定黑箱视觉语言模型的首选图像分布？

BriefGPT - AI 论文速递 ·

视觉语言模型（VLM）在细粒度视觉理解方面存在局限性。研究提出了一种新方法，优化了VLM的性能，并显著改善了基准测试结果。通过创建合成几何问题数据集，评估了VLM的推理能力，发现其在复杂问题上的表现不佳。此外，研究引入了SceneVerse和GPS，提升了3D视觉语言理解，展示了在现有基准上的优越性。