基于多尺度特征的端到端视频字幕生成网络(EVC-MF)

💡 原文中文,约400字,阅读约需1分钟。
📝

内容提要

本研究针对视频字幕模型的解码问题,采用变分Dropout和层归一化等技术以提升性能,并提出在线评估和新训练策略。实验结果显示,模型在MSVD和MSR-VTT数据集上分别提升了18%和3.5%。

🎯

关键要点

  • 本研究针对视频字幕模型的解码问题。
  • 采用变分Dropout和层归一化等技术以提升模型性能。
  • 提出在线评估模型性能的方法以选择最佳测试检查点。
  • 提出专业学习的新训练策略。
  • 在MSVD和MSR-VTT数据集上进行的实验显示模型性能显著提升。
  • 在MSVD数据集上模型提升了18%,在MSR-VTT数据集上提升了3.5%。
➡️

继续阅读