小红花·文摘
  • 首页
  • 广场
  • 排行榜🏆
  • 直播
  • FAQ
Dify.AI

本研究提出了一种新的隐式位置-字幕对齐方法,解决了弱监督密集视频字幕生成中缺乏事件边界注释的问题。该方法通过补充掩蔽简化了事件提议和定位过程,实验结果表明其在公共数据集上优于现有弱监督方法,并与全监督方法竞争。

Weakly-Supervised Dense Video Captioning via Complementary Masking for Implicit Location-Caption Alignment

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-12-17T00:00:00Z

本研究提出了一种新颖的多模态对比损失训练方法,解决了视频字幕生成中忽视音频信息的问题。实验结果表明,该方法在多个基准数据集上优于现有模型,生成更准确的字幕。

Multi-Modal Interpretable Automatic Video Captioning

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-11-11T00:00:00Z

本文探讨了大型语言模型(LLMs)在长视频理解中的应用,提出了LongVLM和LongVILA等新模型,解决了上下文长度限制和视觉信息丢失的问题。这些模型在视频字幕生成和理解任务中表现优异,展现了广泛的应用前景。

视觉上下文窗口扩展:长视频理解的新视角

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-09-30T00:00:00Z

本文探讨了多种视频字幕生成方法,包括多任务学习模型、密集视频字幕框架和基于检索句子的生成技术。这些方法通过优化视频内容理解和上下文建模,显著提升了字幕生成性能,并在多个数据集上取得了优异结果。此外,研究还提出了一个大规模情感视频数据集eMotions,以支持短视频情感分析研究。

情感视频字幕的双路径协同生成网络

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-08-06T00:00:00Z

本文探讨了多种视频字幕生成方法,如分层循环神经网络、时空注意力机制和生成对抗网络。这些方法在生成连贯且高质量的段落描述方面表现优异,尤其在多个数据集上取得了更高的BLEU得分。

RACCooN: 自动产生叙事的视频内容删除、添加和更改

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-05-28T00:00:00Z

本文介绍了新型模型和方法在视觉语音识别、情感分析、步态识别和视频字幕生成等领域的应用,均在相关基准测试中取得了先进性能。这些方法包括多级时空建模、图神经网络和音频记忆结合唇部运动,展示了特征提取和模型适应方面的创新。

MTGA: 多视角时间粒度对齐聚合在基于事件的唇读中的应用

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-04-18T00:00:00Z

本文提出了一种新的密集视频字幕生成方法,结合多模态信息和自动语音识别系统,基于Transformer架构进行文本描述。该方法在ActivityNet Captions数据集上表现优异,显著提高了字幕生成的准确性和连贯性。

密集视频字幕生成与跨模态记忆检索

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-04-11T00:00:00Z

本研究提出了一种名为GEAN的视频字幕生成模型,利用人眼注视追踪数据提升字幕生成的时空注意力。实验结果显示,该模型在多个数据集上表现优异,成为先进的视频字幕生成方法。此外,研究探讨了基于人类凝视的深度学习模型在第一人称视角下的应用,展示了其在动作识别和视觉关注估计方面的优势。

个性化视频视线估计的时空注意力和高斯过程

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-04-08T00:00:00Z

本文介绍了一种新颖的密集视频字幕生成框架,该框架通过建模视频事件的时间依赖性,结合视觉和语言上下文,实现了连贯的叙述。该框架在多个数据集上表现优异,证明了其在复杂视频理解任务中的有效性。

流式视频密集字幕

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-04-01T00:00:00Z

本研究提出了一种名为GEAN的视频字幕生成模型,利用人眼注视追踪数据提升字幕生成性能。评估结果显示,该方法在空间注意力方面具有显著优势,改善了字幕生成效果。此外,研究探讨了人类注视与深度学习模型的关系,提出了新的注视辅助图像字幕模型,进一步提升了图像字幕性能。

视觉语言模型用于解码新生儿复苏期间的医护人员关注点

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-04-01T00:00:00Z

本文介绍了一种新框架,通过时间变换器和VSGaze数据集,联合预测场景中所有人的凝视目标和社交凝视标签。GG-Transformer模型采用自适应扩张分区的自注意力机制和深度卷积层,有效建模长距离依赖性和局部信息。此外,研究探讨了人眼注视追踪在视频字幕生成中的应用,GEAN模型利用注视数据提升生成性能。

ViTGaze:视觉 Transformer 中的交互特征目光追踪

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-03-19T00:00:00Z

本文介绍了一种名为推理模块网络(RMN)的视觉推理方法,用于视频字幕生成。RMN包括三个时空推理模块和一个动态离散模块选择器。实验证明,RMN方法在MSVD和MSR-VTT数据集上优于现有方法,并提供了明确和可解释的生成过程。

基于检测的视觉问答中间监督

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2023-12-26T00:00:00Z

本文提出了一种名为推理模块网络(RMN)的视觉推理方法,用于视频字幕生成的推理能力。RMN包括三个时空推理模块和一个动态离散模块选择器。实验结果表明,RMN方法优于现有方法,同时提供了明确和可解释的生成过程。

教师引导的组合视觉推理的多模态表示

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2023-10-24T00:00:00Z
  • <<
  • <
  • 1 (current)
  • >
  • >>
👤 个人中心
在公众号发送验证码完成验证
登录验证
在本设备完成一次验证即可继续使用

完成下面两步后,将自动完成登录并继续当前操作。

1 关注公众号
小红花技术领袖公众号二维码
小红花技术领袖
如果当前 App 无法识别二维码,请在微信搜索并关注该公众号
2 发送验证码
在公众号对话中发送下面 4 位验证码
小红花技术领袖俱乐部
小红花·文摘:汇聚分发优质内容
小红花技术领袖俱乐部
Copyright © 2021-
粤ICP备2022094092号-1
公众号 小红花技术领袖俱乐部公众号二维码
视频号 小红花技术领袖俱乐部视频号二维码