小红花·文摘

本研究提出了一种新颖的多模态对比损失训练方法，解决了视频字幕生成中忽视音频信息的问题。实验结果表明，该方法在多个基准数据集上优于现有模型，生成更准确的字幕。

BriefGPT - AI 论文速递 ·

本研究探讨了结合音频和文本改善对话策略的方法，解决了传统系统因依赖文本转录而导致的信息缺失问题。实验结果表明，音频嵌入的对话策略在嘈杂环境中比仅基于文本的策略提升了9.8%的用户请求评分，强调了音频信息的重要性。

BriefGPT - AI 论文速递 ·

本研究提出了一种新方法，通过动作查询表示和时间自相似性量化视频中的重复动作周期。该方法在多个基准测试中表现优异，解决了复杂重复动作的计数问题，并引入音频信息以提高准确性。实验结果表明，该模型在不同数据集上优于现有技术，具有良好的鲁棒性和通用性。

BriefGPT - AI 论文速递 ·