小红花·文摘 - 小红花技术领袖俱乐部

SmolVLM2-2.2B是一个高效的视频理解模型，能够在普通GPU上运行，适合处理会议记录、讲座和监控视频。它提取视频帧并生成结构化的JSON摘要，提供每帧的场景描述、关键时刻和行动项，表现优异，适合开发者在本地环境中使用。

本地视频摘要管道：使用SmolVLM2-2.2B处理帧

KDnuggets ·

本研究构建了一个高质量的远程感知图像字幕数据集（RSICap），包括 2,585 个人工注释的字幕，为每个图像提供了详细的描述，包括场景描述和对象信息。此外，还提供了一个基准评估数据集 RSIEval，可以全面评估在 RS 背景下的视觉语言模型。

基于大型语言模型的自动卫星图像描述生成

BriefGPT - AI 论文速递 ·

ViECap是一种可转移的解码模型，利用实体感知解码生成见过和没见过的场景中的描述。通过实体感知的硬提示，ViECap能够在跨多样场景的连贯字幕生成中保持性能，并在跨域字幕生成方面达到最新水平。

Pro-Cap: 利用冻结的视觉语言模型进行令人讨厌的恶搞表情包检测

BriefGPT - AI 论文速递 ·