Chenyme-AAVT项目利用极空间NAS和AI技术,实现音视频识别及字幕翻译。通过Whisper模型,用户可轻松生成翻译和图文博客,提高视频处理效率。该项目开源,适合有翻译需求的用户使用。
本研究提出了名为StoryTeller的系统,旨在改善长视频描述中的情节一致性问题。通过音视频角色识别和多模态结合,StoryTeller显著提高了描述的准确性,实验结果显示其准确率比最强基线模型提高了9.5%。
本文介绍了一种基于AV-HuBERT模型的自监督音视频语音识别框架,利用LRS3数据集在噪音环境中显著提升性能。通过多语种模型和跨模态注意力模块,增强了音视频识别的准确性,尤其在背景噪声下表现优异。研究提出的多层交叉注意力融合方法取得了新的最先进性能,验证了多模态学习在音视频识别中的有效性。
本研究提出了一种新颖的多模态体系结构,结合文本和声学模态进行语调检测,效果优于以往系统。同时,探讨了模态缺失对音视频识别的影响,并提出了减少对音频依赖的新框架。实验验证了方法的有效性和在缺失模态情况下的鲁棒性。
完成下面两步后,将自动完成登录并继续当前操作。