Towards Explainable AI: Multi-Modal Transformer for Video-based Image Description Generation
💡
原文英文,约100词,阅读约需1分钟。
📝
内容提要
本研究提出了一种新框架,通过结合文本和视觉模态,从视频数据集中生成自然语言描述。该框架利用ResNet50提取视频帧特征,并通过基于GPT-2的模型生成高质量、可解释的描述,具有重要的实际应用价值。
🎯
关键要点
-
本研究提出了一种新框架,通过结合文本和视觉模态,从视频数据集中生成自然语言描述。
-
该框架利用ResNet50提取视频帧的视觉特征。
-
通过基于GPT-2的编码解码模型生成描述,显著提高了描述的质量和可解释性。
-
该方法在实际应用中具有重要影响,尤其适用于智能监控和自主系统等视频应用。
➡️