小红花·文摘

RubiCap：基于评分标准的强化学习用于密集图像字幕生成

Apple Machine Learning Research ·

本研究提出了一种名为SPARC的训练无关方法，旨在提高多模态大型语言模型生成图像字幕的准确性与召回率。SPARC通过增强关键视觉元素的贡献，提升了图像字幕的质量，同时保持较低的计算开销。

Visual Attention Never Fades: Selective Progressive Attention Recalibration for Detailed Image Captioning in Multimodal Large Language Models

BriefGPT - AI 论文速递 ·

本研究提出了CompreCap基准，用于评估大型视觉语言模型（LVLMs）在生成详细图像字幕方面的表现。通过手动语义分割和定向场景图，开发了多层次评估流程，实验结果表明该方法与人工评估高度一致。

Benchmarking Large Vision-Language Models via Directed Scene Graph for Comprehensive Image Captioning

BriefGPT - AI 论文速递 ·

Google DeepMind 发布 PaliGemma 2：全新开放式视觉语言模型系列（3B、10B 和 28B）

实时互动网 ·

AnyModal：用灵活框架简化多模态AI开发

DEV Community ·

本文综述了自动生成图像字幕的研究进展，探讨了深度学习模型（如卷积神经网络和编码-解码模型）在图像描述中的应用。研究表明，结合不同模型可以提高字幕生成的准确性和流畅性，同时强调优化训练数据和超参数的重要性。

从像素到散文：理解图像标题生成的艺术

BriefGPT - AI 论文速递 ·

大语言模型在计算机视觉领域中通过不同接口机制实现图像字幕和视觉问题回答任务。实验评估发现现有机制在多个任务中表现更好，并识别出一种新的接口机制，获得接近最优结果并降低训练时间。

数据效率改进基于感知增强的 LLMs 基准

BriefGPT - AI 论文速递 ·

通过使用Centered Kernel Alignment (CKA)分析图像字幕基准上视觉和语言模型的潜在空间结构，发现不对齐和对齐的编码器的表示空间在语义上是相似的。提出了两种方法，一种是快速二次分配问题优化，一种是基于新颖局部CKA度量的匹配/检索。在跨语言、跨域字幕匹配和图像分类等任务上展示了其有效性。

视觉和语言编码器是否相似地代表世界？

BriefGPT - AI 论文速递 ·

我们提出了一种新方法MOCHa，通过使用强化学习来处理图像字幕中幻觉的序列级性质，共同优化字幕的准确性和生成内容的逻辑一致性。该方法在不同规模的字幕模型上展示了卓越性能。

MOCHa：多目标强化学习减轻标题幻觉

BriefGPT - AI 论文速递 ·

该文介绍了一种基于Vision-Transformer的语义蒸馏协助显著目标检测方法，通过融合从生成的图像字幕中语义蒸馏的知识，可以更好地揭示物体之间、物体与环境之间的显著性，并提高了模型性能。在五个基准数据集上的实验表明，该方法优于现有技术。

零样本共显目标检测框架

BriefGPT - AI 论文速递 ·