基于多尺度特征的端到端视频字幕生成网络(EVC-MF)
💡
原文中文,约400字,阅读约需1分钟。
📝
内容提要
本研究针对视频字幕模型的解码问题,采用变分Dropout和层归一化等技术以提升性能,并提出在线评估和新训练策略。实验结果显示,模型在MSVD和MSR-VTT数据集上分别提升了18%和3.5%。
🎯
关键要点
- 本研究针对视频字幕模型的解码问题。
- 采用变分Dropout和层归一化等技术以提升模型性能。
- 提出在线评估模型性能的方法以选择最佳测试检查点。
- 提出专业学习的新训练策略。
- 在MSVD和MSR-VTT数据集上进行的实验显示模型性能显著提升。
- 在MSVD数据集上模型提升了18%,在MSR-VTT数据集上提升了3.5%。
➡️