小红花·文摘

本文探讨了多种图像字幕生成方法，包括利用外部知识、组合神经模块、kNN记忆和Vision-Language预训练模型，旨在提高字幕生成的准确性和细致度。研究表明，结合外部存储器和优化策略能显著改善字幕质量，尤其在复杂数据集上表现优异，为未来的图像字幕生成提供了新方向。

CAPEEN：带有早期退出和知识蒸馏的图像描述生成

BriefGPT - AI 论文速递 ·

本文介绍了一种零样本学习的图像字幕生成方法，通过解耦对象描述与语言模型，在未知领域有效生成字幕。研究表明，该方法在新颖对象字幕任务中表现良好，并提出了多种改进技术，如引入辅助输入、无参数关注模块和轻量级解码器，显著提升了生成性能。

无训练对象部分增强技术：无缝提升细粒度零样本图像描述

BriefGPT - AI 论文速递 ·

本文介绍了多种基于视觉和语言模型的图像字幕生成方法，如ICECAP、Cap4Video和ViECap，旨在提高字幕生成的准确性和一致性。这些方法在多个标准数据集上表现优异，尤其在零样本学习和跨域应用中取得了先进水平。

IFCap：基于图像检索和频率实体过滤的零样本字幕生成

BriefGPT - AI 论文速递 ·

该论文探讨了图像字幕生成的多种方法，包括自检索模块、视觉编码和文本生成。研究提出的VisualGPT模型和CLIP奖励机制显著提高了生成标题的准确性和描述性。通过微调和个性化框架，模型在多个数据集上表现优异，推动了计算机视觉与自然语言处理的结合。

细节不落下：重新审视细粒度图像描述中的自我检索

BriefGPT - AI 论文速递 ·

本文提出了一种新颖的上下文扩散模型（ContextDiff），通过文本与视觉样本的交互，提升了文本到图像生成和视频编辑的性能。研究还介绍了基于语义条件扩散网络的图像字幕生成模型和视频生成新方法，均在多个数据集上取得了优异表现，推动了跨模态生成技术的发展。

利用丰富上下文条件扩散模型提升故事可视化一致性

BriefGPT - AI 论文速递 ·

本文探讨了多种基于LSTM的模型在计算机视觉中的应用，包括视频帧预测、图像字幕生成和视觉语音识别。研究表明，这些模型在多个基准数据集上表现优异，展示了LSTM在时空信息处理和自然语言生成中的潜力。

Seg-LSTM: 遥感图像语义分割的 xLSTM 性能

BriefGPT - AI 论文速递 ·

本文提出了一种名为EXTRA的图像字幕生成方法，结合视觉和语言编码器，通过检索增强生成质量。同时，研究探讨了生成内容丰富（GCE）的新任务，利用深度学习模型探索语义关系，提升视觉内容生成的可信度。此外，研究发现社会属性影响生成内容的偏见，并提出LIBRA框架以减少性别偏见。

从描述丰富性到偏见：揭示生成图像标题丰富化的黑暗面

BriefGPT - AI 论文速递 ·

本文探讨了个性化视觉-语言模型的研究，重点在于通过外部概念嵌入和中间特征空间的整合，提升图像字幕生成和视觉问答的效果。研究表明，该模型在多个数据集上表现优异，尤其在个性化调整和零样本学习方面显著提高了推理能力和分类准确率。此外，提出了新的学习设置PerVL，有效学习个性化视觉概念。

Yo'LLaVA: 个性化语言和视觉助手

BriefGPT - AI 论文速递 ·

本文探讨了知识蒸馏技术在视觉语言模型中的应用，提出了VL蒸馏、RKD和MiniLLM等方法，以提升模型性能和推理效率。这些方法在图像字幕生成和视觉问答任务中表现出色，促进了大型模型向小型模型的有效转化。

DistilDoc: 视觉内容丰富文档应用的知识蒸馏

BriefGPT - AI 论文速递 ·

这篇论文探讨了多种基于视觉和语音的模型，旨在提升低资源语言的语音理解和图像字幕生成能力。研究采用双编码器、改进的神经网络和多任务学习等方法，显著提高了性能，尤其在图像与语音结合方面，展示了语音识别和翻译的有效性。

仅使用图像进行语音翻译

BriefGPT - AI 论文速递 ·

本研究构建了多模态大语言模型LHRS-Bot，专注于遥感图像理解，利用高质量数据集RSICap和HqDC-1.4M，提升模型的空间感知和生成能力。通过对比性预训练，RS-CapRet实现了图像字幕生成和文本-图像检索，展示了在遥感领域的强大性能。

RS-Agent: 智能代理自动化遥感任务

BriefGPT - AI 论文速递 ·

SmallCap是一种轻量快速的图像字幕生成模型，通过外部kNN内存和视觉相似性知识检索器提高生成质量。实验表明，显式外部存储器显著改善了字幕质量，为大规模图像字幕生成研究开辟了新方向。

理解用于检索增强图像字幕生成的检索鲁棒性

BriefGPT - AI 论文速递 ·

本文探讨了推测解码在大型语言模型（LLMs）中的应用，特别是LLaVA 7B模型。研究表明，推测解码显著提高了内存速度，并在图像字幕生成等任务中表现优异。提出的分阶段投机性解码算法优化了小批量推断的效率，降低了解码延迟，同时保持输出质量。此外，Sequoia算法通过动态规划和硬件感知优化，提升了多种模型的解码速度。

克洛弗：基于连续知识的逐渐式轻量级猜测解码

BriefGPT - AI 论文速递 ·

本文介绍了一种新的图像字幕生成架构，利用视觉关系图和弱监督学习来提升图像表示和字幕生成效果。实验结果表明，该框架在MSCOCO数据集上表现优异。此外，研究探讨了视觉线索、对象检测与大型语言模型的结合，提出了多种创新方法以提高图像描述的质量和多样性。

标题：字幕金字塔

BriefGPT - AI 论文速递 ·

本研究提出了一种基于文本引导注意力模型的图像字幕生成方法，能够有效区分图像中的细小对象，并在MS-COCO基准测试中表现优异。研究探讨了图像与文本的匹配问题，提出了多模态数据表示的改进方法，并结合认知模型与人类注视监督提升NLP任务性能。此外，提出了一种新的主题引导注意力机制，优化了图像特征选择。

文本引导对视觉注意力的影响：数据库与模型

BriefGPT - AI 论文速递 ·

本文介绍了一种新型图像分词器策略，基于语义视觉转换器（sViT）的分割模型在特征捕获和全局依赖关系上表现优越。通过引入Plug-and-Play开放词汇语义分割技术，显著提升了图像分类和理解的效率，尤其在视觉问答和图像字幕生成任务中表现良好。

均质分词器重要性：远程感知图像理解的均质视觉分词器

BriefGPT - AI 论文速递 ·

本文介绍了利用人类反馈和强化学习优化图像字幕生成模型的方法，包括策略梯度和条件生成对抗网络等。这些方法有效提高了生成质量、模型性能及其泛化能力和一致性。

利用强化学习与人类反馈增强图像字幕生成

BriefGPT - AI 论文速递 ·

本文介绍了多种图像字幕生成框架，如DeCap、MultiCapCLIP、ViECap和CapsFusion，旨在提升图像描述的性能和效率。这些方法通过结合视觉和语言模型，在多个数据集上取得了显著的性能提升，尤其在零样本和多语言场景中表现突出。

MeaCap: 存储增强的零样本图像描述

BriefGPT - AI 论文速递 ·

本论文研究了一种基于kNN记忆的图像字幕生成方法，利用外部语料库检索知识辅助生成过程。实验结果表明，采用外部存储器可以提高字幕质量。该研究为图像字幕生成模型的改进提供了新的途径。

将表格数据上的参数异常检测重新变为非参数化

BriefGPT - AI 论文速递 ·