小红花·文摘
  • 首页
  • 广场
  • 排行榜🏆
  • 直播
  • FAQ
Dify.AI
RubiCap:基于评分标准的强化学习用于密集图像字幕生成

RubiCap是一种新型强化学习框架,通过大型语言模型生成细致的奖励信号,有效解决图像字幕生成中的多样性和泛化问题。在CapArena和CaptionQA基准测试中表现优异,超越传统方法和人类专家注释。

RubiCap:基于评分标准的强化学习用于密集图像字幕生成

Apple Machine Learning Research
Apple Machine Learning Research · 2026-03-16T00:00:00Z

本研究提出了一种名为SPARC的训练无关方法,旨在提高多模态大型语言模型生成图像字幕的准确性与召回率。SPARC通过增强关键视觉元素的贡献,提升了图像字幕的质量,同时保持较低的计算开销。

Visual Attention Never Fades: Selective Progressive Attention Recalibration for Detailed Image Captioning in Multimodal Large Language Models

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-02-03T00:00:00Z

本研究提出了CompreCap基准,用于评估大型视觉语言模型(LVLMs)在生成详细图像字幕方面的表现。通过手动语义分割和定向场景图,开发了多层次评估流程,实验结果表明该方法与人工评估高度一致。

Benchmarking Large Vision-Language Models via Directed Scene Graph for Comprehensive Image Captioning

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-12-11T00:00:00Z
Google DeepMind 发布 PaliGemma 2:全新开放式视觉语言模型系列(3B、10B 和 28B)

Google DeepMind推出的视觉语言模型PaliGemma 2系列包含九个不同参数和分辨率的预训练模型,适用于图像字幕和视觉问答等任务,具备灵活性和可扩展性,满足多样化用户需求。

Google DeepMind 发布 PaliGemma 2:全新开放式视觉语言模型系列(3B、10B 和 28B)

实时互动网
实时互动网 · 2024-12-06T06:23:08Z
AnyModal:用灵活框架简化多模态AI开发

AnyModal是一个开源框架,旨在简化多模态AI开发,减少重复代码,支持图像和音频与大型语言模型的集成,促进快速实验和定制。目前支持图像字幕生成,未来将增加视觉问答和音频字幕功能。

AnyModal:用灵活框架简化多模态AI开发

DEV Community
DEV Community · 2024-11-19T11:13:42Z

本文综述了自动生成图像字幕的研究进展,探讨了深度学习模型(如卷积神经网络和编码-解码模型)在图像描述中的应用。研究表明,结合不同模型可以提高字幕生成的准确性和流畅性,同时强调优化训练数据和超参数的重要性。

从像素到散文:理解图像标题生成的艺术

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-08-28T00:00:00Z

大语言模型在计算机视觉领域中通过不同接口机制实现图像字幕和视觉问题回答任务。实验评估发现现有机制在多个任务中表现更好,并识别出一种新的接口机制,获得接近最优结果并降低训练时间。

数据效率改进基于感知增强的 LLMs 基准

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-03-20T00:00:00Z

通过使用Centered Kernel Alignment (CKA)分析图像字幕基准上视觉和语言模型的潜在空间结构,发现不对齐和对齐的编码器的表示空间在语义上是相似的。提出了两种方法,一种是快速二次分配问题优化,一种是基于新颖局部CKA度量的匹配/检索。在跨语言、跨域字幕匹配和图像分类等任务上展示了其有效性。

视觉和语言编码器是否相似地代表世界?

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-01-10T00:00:00Z

我们提出了一种新方法MOCHa,通过使用强化学习来处理图像字幕中幻觉的序列级性质,共同优化字幕的准确性和生成内容的逻辑一致性。该方法在不同规模的字幕模型上展示了卓越性能。

MOCHa:多目标强化学习减轻标题幻觉

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2023-12-06T00:00:00Z

该文介绍了一种基于Vision-Transformer的语义蒸馏协助显著目标检测方法,通过融合从生成的图像字幕中语义蒸馏的知识,可以更好地揭示物体之间、物体与环境之间的显著性,并提高了模型性能。在五个基准数据集上的实验表明,该方法优于现有技术。

零样本共显目标检测框架

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2023-09-11T00:00:00Z
  • <<
  • <
  • 1 (current)
  • >
  • >>
👤 个人中心
在公众号发送验证码完成验证
登录验证
在本设备完成一次验证即可继续使用

完成下面两步后,将自动完成登录并继续当前操作。

1 关注公众号
小红花技术领袖公众号二维码
小红花技术领袖
如果当前 App 无法识别二维码,请在微信搜索并关注该公众号
2 发送验证码
在公众号对话中发送下面 4 位验证码
小红花技术领袖俱乐部
小红花·文摘:汇聚分发优质内容
小红花技术领袖俱乐部
Copyright © 2021-
粤ICP备2022094092号-1
公众号 小红花技术领袖俱乐部公众号二维码
视频号 小红花技术领袖俱乐部视频号二维码