小红花·文摘

本研究提出了一种新的隐式位置-字幕对齐方法，解决了弱监督密集视频字幕生成中缺乏事件边界注释的问题。该方法通过补充掩蔽简化了事件提议和定位过程，实验结果表明其在公共数据集上优于现有弱监督方法，并与全监督方法竞争。

Weakly-Supervised Dense Video Captioning via Complementary Masking for Implicit Location-Caption Alignment

BriefGPT - AI 论文速递 ·

本研究提出了一种新颖的多模态对比损失训练方法，解决了视频字幕生成中忽视音频信息的问题。实验结果表明，该方法在多个基准数据集上优于现有模型，生成更准确的字幕。

Multi-Modal Interpretable Automatic Video Captioning

BriefGPT - AI 论文速递 ·

本文探讨了大型语言模型（LLMs）在长视频理解中的应用，提出了LongVLM和LongVILA等新模型，解决了上下文长度限制和视觉信息丢失的问题。这些模型在视频字幕生成和理解任务中表现优异，展现了广泛的应用前景。

视觉上下文窗口扩展：长视频理解的新视角

BriefGPT - AI 论文速递 ·

本文探讨了多种视频字幕生成方法，包括多任务学习模型、密集视频字幕框架和基于检索句子的生成技术。这些方法通过优化视频内容理解和上下文建模，显著提升了字幕生成性能，并在多个数据集上取得了优异结果。此外，研究还提出了一个大规模情感视频数据集eMotions，以支持短视频情感分析研究。

情感视频字幕的双路径协同生成网络

BriefGPT - AI 论文速递 ·

本文探讨了多种视频字幕生成方法，如分层循环神经网络、时空注意力机制和生成对抗网络。这些方法在生成连贯且高质量的段落描述方面表现优异，尤其在多个数据集上取得了更高的BLEU得分。

RACCooN: 自动产生叙事的视频内容删除、添加和更改

BriefGPT - AI 论文速递 ·

本文介绍了新型模型和方法在视觉语音识别、情感分析、步态识别和视频字幕生成等领域的应用，均在相关基准测试中取得了先进性能。这些方法包括多级时空建模、图神经网络和音频记忆结合唇部运动，展示了特征提取和模型适应方面的创新。

MTGA: 多视角时间粒度对齐聚合在基于事件的唇读中的应用

BriefGPT - AI 论文速递 ·

本文提出了一种新的密集视频字幕生成方法，结合多模态信息和自动语音识别系统，基于Transformer架构进行文本描述。该方法在ActivityNet Captions数据集上表现优异，显著提高了字幕生成的准确性和连贯性。

密集视频字幕生成与跨模态记忆检索

BriefGPT - AI 论文速递 ·

本研究提出了一种名为GEAN的视频字幕生成模型，利用人眼注视追踪数据提升字幕生成的时空注意力。实验结果显示，该模型在多个数据集上表现优异，成为先进的视频字幕生成方法。此外，研究探讨了基于人类凝视的深度学习模型在第一人称视角下的应用，展示了其在动作识别和视觉关注估计方面的优势。

个性化视频视线估计的时空注意力和高斯过程

BriefGPT - AI 论文速递 ·

本文介绍了一种新颖的密集视频字幕生成框架，该框架通过建模视频事件的时间依赖性，结合视觉和语言上下文，实现了连贯的叙述。该框架在多个数据集上表现优异，证明了其在复杂视频理解任务中的有效性。

流式视频密集字幕

BriefGPT - AI 论文速递 ·

本研究提出了一种名为GEAN的视频字幕生成模型，利用人眼注视追踪数据提升字幕生成性能。评估结果显示，该方法在空间注意力方面具有显著优势，改善了字幕生成效果。此外，研究探讨了人类注视与深度学习模型的关系，提出了新的注视辅助图像字幕模型，进一步提升了图像字幕性能。

视觉语言模型用于解码新生儿复苏期间的医护人员关注点

BriefGPT - AI 论文速递 ·

本文介绍了一种新框架，通过时间变换器和VSGaze数据集，联合预测场景中所有人的凝视目标和社交凝视标签。GG-Transformer模型采用自适应扩张分区的自注意力机制和深度卷积层，有效建模长距离依赖性和局部信息。此外，研究探讨了人眼注视追踪在视频字幕生成中的应用，GEAN模型利用注视数据提升生成性能。

ViTGaze：视觉 Transformer 中的交互特征目光追踪

BriefGPT - AI 论文速递 ·

本文介绍了一种名为推理模块网络（RMN）的视觉推理方法，用于视频字幕生成。RMN包括三个时空推理模块和一个动态离散模块选择器。实验证明，RMN方法在MSVD和MSR-VTT数据集上优于现有方法，并提供了明确和可解释的生成过程。

基于检测的视觉问答中间监督

BriefGPT - AI 论文速递 ·

本文提出了一种名为推理模块网络(RMN)的视觉推理方法，用于视频字幕生成的推理能力。RMN包括三个时空推理模块和一个动态离散模块选择器。实验结果表明，RMN方法优于现有方法，同时提供了明确和可解释的生成过程。

教师引导的组合视觉推理的多模态表示

BriefGPT - AI 论文速递 ·