小红花·文摘
  • 首页
  • 广场
  • 排行榜🏆
  • 直播
  • FAQ
Dify.AI

本研究提出了一种自监督片段微调方法(SF²T),旨在提升视频大语言模型在细粒度理解方面的能力。通过利用视频特征进行训练,改善模型对视觉动态和细节的理解。同时,构建了新的基准数据集FineVidBench,以评估模型在场景和片段层面的表现,实验结果显示该方法显著提高了时空细节的捕捉和解释能力。

SF2T: Self-Supervised Fragment Fine-Tuning of Video Large Language Models for Fine-Grained Understanding

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-04-10T00:00:00Z
统一SAM2和LLaVA!字节豆包提出Dense Video多模态大模型Sa2VA

AIxiv报道了字节跳动与北大等机构联合提出的多模态大模型Sa2VA,该模型结合了SAM-2和LLaVA的优势,实现了视频和图像的细粒度理解,支持多种任务,表现优异。

统一SAM2和LLaVA!字节豆包提出Dense Video多模态大模型Sa2VA

机器之心
机器之心 · 2025-02-12T05:22:57Z

本研究提出了一种通过文本训练提升视觉语言模型(VLMs)细粒度视觉理解的方法。实验结果表明,该方法在效果上与传统图像-文本训练相当,同时显著降低了计算成本,为资源有限环境中的VLM能力提升提供了高效经济的解决方案。

Improving Fine-grained Visual Understanding in Visual Language Models through Text Training

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-12-17T00:00:00Z

本文提出了一种名为multi-grained vision language pre-training的视觉语言联合预训练方法及其模型X$^2$-VLM,旨在提升视觉语言理解能力。研究表明,现有视觉语言模型在细粒度理解上存在局限,基准测试SPEC揭示了这一问题。通过优化方法,显著改善了模型在细粒度理解上的表现,并展示了良好的可迁移性。

TextHawk2:一种在双语OCR和图像定位中表现优异的大型视觉语言模型,使用的标记数减少16倍

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-10-07T00:00:00Z

本文提出了一种优化视觉语言模型(VLM)在细粒度理解上的方法,通过采样响应的VLM分数提高预测质量。研究表明,VLM在Objaverse数据集上的表现接近人工验证的注释质量,并揭示了模型在多图像推理任务中的局限性。通过引入新的基准测试和数据合成方法,研究改善了视觉推理能力,并探讨了模型的不确定性与准确性之间的关系。

如何确定黑箱视觉语言模型的首选图像分布?

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-09-03T00:00:00Z

视觉语言模型(VLM)在细粒度视觉理解方面存在局限性。研究提出了一种新方法,优化了VLM的性能,并显著改善了基准测试结果。通过创建合成几何问题数据集,评估了VLM的推理能力,发现其在复杂问题上的表现不佳。此外,研究引入了SceneVerse和GPS,提升了3D视觉语言理解,展示了在现有基准上的优越性。

DH-Bench:探测大型视觉语言模型的深度和高度感知

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-08-21T00:00:00Z

本文介绍了MiniVLM,一个轻量快速的视觉-语言模型,模型大小减少73%,推理时间降低94%,在视觉-语言任务上保持94-97%的准确率。同时,研究探讨了视觉语言模型在细粒度理解上的局限性,并提出了优化方法以提升性能。

响应广泛关闭:基本视觉语言模型能力中的惊人观察

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-08-13T00:00:00Z
Ferretv2:引用与定位的改进基准

Ferret-v2是对Ferret的重大升级,具有支持任意分辨率的定位与引用、多粒度视觉编码和三阶段训练模式。实验结果显示,Ferret-v2在高分辨率处理和细粒度视觉理解方面显著优于Ferret及其他先进方法。

Ferretv2:引用与定位的改进基准

Apple Machine Learning Research
Apple Machine Learning Research · 2024-07-16T00:00:00Z

研究者提出了一种渐进式流水线和基准测试方法,发现现有视觉语言模型在细粒度理解上表现不佳。他们提出了一种简单有效的优化方法,并验证了其在其他基准测试中的可迁移性。

FINEMATCH:基于方面的细粒度图像与文本不匹配检测与校正

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-04-23T00:00:00Z

研究者提出了一种渐进式流水线和基准测试方法,发现现有视觉语言模型在细粒度理解上表现不佳。他们提出了一种简单有效的优化方法,并验证了其在其他基准测试中的可迁移性。

Finer: 大规模视觉语言模型中细粒度视觉概念识别的研究与增强

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-02-26T00:00:00Z

研究者提出了一种渐进式流水线和基准测试方法,发现现有视觉语言模型在细粒度理解方面表现不佳。他们提出了一种简单有效的优化方法,并验证了其在其他基准测试中的可迁移性。

分析基于视觉条件的语言模型的设计空间:棱镜式 VLMs

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-02-12T00:00:00Z
  • <<
  • <
  • 1 (current)
  • >
  • >>
👤 个人中心
在公众号发送验证码完成验证
登录验证
在本设备完成一次验证即可继续使用

完成下面两步后,将自动完成登录并继续当前操作。

1 关注公众号
小红花技术领袖公众号二维码
小红花技术领袖
如果当前 App 无法识别二维码,请在微信搜索并关注该公众号
2 发送验证码
在公众号对话中发送下面 4 位验证码
小红花技术领袖俱乐部
小红花·文摘:汇聚分发优质内容
小红花技术领袖俱乐部
Copyright © 2021-
粤ICP备2022094092号-1
公众号 小红花技术领袖俱乐部公众号二维码
视频号 小红花技术领袖俱乐部视频号二维码