本研究提出了一种新颖的多模态对比损失训练方法,解决了视频字幕生成中忽视音频信息的问题。实验结果表明,该方法在多个基准数据集上优于现有模型,生成更准确的字幕。
本研究探讨了结合音频和文本改善对话策略的方法,解决了传统系统因依赖文本转录而导致的信息缺失问题。实验结果表明,音频嵌入的对话策略在嘈杂环境中比仅基于文本的策略提升了9.8%的用户请求评分,强调了音频信息的重要性。
本研究提出了一种新方法,通过动作查询表示和时间自相似性量化视频中的重复动作周期。该方法在多个基准测试中表现优异,解决了复杂重复动作的计数问题,并引入音频信息以提高准确性。实验结果表明,该模型在不同数据集上优于现有技术,具有良好的鲁棒性和通用性。
完成下面两步后,将自动完成登录并继续当前操作。