本研究提出了一种新的隐式位置-字幕对齐方法,解决了弱监督密集视频字幕生成中缺乏事件边界注释的问题。该方法通过补充掩蔽简化了事件提议和定位过程,实验结果表明其在公共数据集上优于现有弱监督方法,并与全监督方法竞争。
本研究提出了一种新颖的多模态对比损失训练方法,解决了视频字幕生成中忽视音频信息的问题。实验结果表明,该方法在多个基准数据集上优于现有模型,生成更准确的字幕。
本文探讨了大型语言模型(LLMs)在长视频理解中的应用,提出了LongVLM和LongVILA等新模型,解决了上下文长度限制和视觉信息丢失的问题。这些模型在视频字幕生成和理解任务中表现优异,展现了广泛的应用前景。
本文探讨了多种视频字幕生成方法,包括多任务学习模型、密集视频字幕框架和基于检索句子的生成技术。这些方法通过优化视频内容理解和上下文建模,显著提升了字幕生成性能,并在多个数据集上取得了优异结果。此外,研究还提出了一个大规模情感视频数据集eMotions,以支持短视频情感分析研究。
本文探讨了多种视频字幕生成方法,如分层循环神经网络、时空注意力机制和生成对抗网络。这些方法在生成连贯且高质量的段落描述方面表现优异,尤其在多个数据集上取得了更高的BLEU得分。
本文介绍了新型模型和方法在视觉语音识别、情感分析、步态识别和视频字幕生成等领域的应用,均在相关基准测试中取得了先进性能。这些方法包括多级时空建模、图神经网络和音频记忆结合唇部运动,展示了特征提取和模型适应方面的创新。
本文提出了一种新的密集视频字幕生成方法,结合多模态信息和自动语音识别系统,基于Transformer架构进行文本描述。该方法在ActivityNet Captions数据集上表现优异,显著提高了字幕生成的准确性和连贯性。
本研究提出了一种名为GEAN的视频字幕生成模型,利用人眼注视追踪数据提升字幕生成的时空注意力。实验结果显示,该模型在多个数据集上表现优异,成为先进的视频字幕生成方法。此外,研究探讨了基于人类凝视的深度学习模型在第一人称视角下的应用,展示了其在动作识别和视觉关注估计方面的优势。
本文介绍了一种新颖的密集视频字幕生成框架,该框架通过建模视频事件的时间依赖性,结合视觉和语言上下文,实现了连贯的叙述。该框架在多个数据集上表现优异,证明了其在复杂视频理解任务中的有效性。
本研究提出了一种名为GEAN的视频字幕生成模型,利用人眼注视追踪数据提升字幕生成性能。评估结果显示,该方法在空间注意力方面具有显著优势,改善了字幕生成效果。此外,研究探讨了人类注视与深度学习模型的关系,提出了新的注视辅助图像字幕模型,进一步提升了图像字幕性能。
本文介绍了一种新框架,通过时间变换器和VSGaze数据集,联合预测场景中所有人的凝视目标和社交凝视标签。GG-Transformer模型采用自适应扩张分区的自注意力机制和深度卷积层,有效建模长距离依赖性和局部信息。此外,研究探讨了人眼注视追踪在视频字幕生成中的应用,GEAN模型利用注视数据提升生成性能。
本文介绍了一种名为推理模块网络(RMN)的视觉推理方法,用于视频字幕生成。RMN包括三个时空推理模块和一个动态离散模块选择器。实验证明,RMN方法在MSVD和MSR-VTT数据集上优于现有方法,并提供了明确和可解释的生成过程。
本文提出了一种名为推理模块网络(RMN)的视觉推理方法,用于视频字幕生成的推理能力。RMN包括三个时空推理模块和一个动态离散模块选择器。实验结果表明,RMN方法优于现有方法,同时提供了明确和可解释的生成过程。
完成下面两步后,将自动完成登录并继续当前操作。