实时互动网 ·

AI改了画面却没改声音？浙大团队首次将一句话编辑视频延伸到音频维度

💡 原文中文，约3800字，阅读约需9分钟。

📝

内容提要

浙江大学和腾讯团队提出了JAVEdit-100k数据集及评测基准JAVEditBench，填补了音视频联合编辑的空白。研究表明，JAVEdit在评测中表现优异，音视频同步性提升26%。该工作为多模态编辑提供了高质量资源，并指出音频基础模型的不足，未来需加强音频编辑能力。

🎯

🔎

当前的音视频编辑技术大多集中在视觉层面，音频编辑的缺失使得用户体验受到限制。JAVEdit的提出填补了这一空白，展示了自然语言指令驱动的音视频联合编辑的潜力，但仍需解决音频基础模型的不足，以实现更高效的编辑效果。

JAVEdit-100k数据集的推出为多模态编辑提供了高质量的资源，尤其是在音视频同步性方面提升了26%。这种创新不仅提高了编辑的准确性，也为未来的研究提供了重要的基准，推动了音视频编辑技术的发展。

尽管JAVEdit在多个指标上表现优异，但其开放域泛化能力仍需验证，且复杂指令的处理受限于基础模型的能力。未来的研究应关注扩展数据集的多样性和提升模型的生成能力，以满足更复杂的编辑需求。

❓

JAVEdit-100k数据集包含103K条高质量编辑三元组，涵盖5类任务，统一规格为1280×720、121帧、25 FPS。

JAVEdit在评测中获得6项指标中的5项第一，音视频同步性提升26%。

JAVEditBench设计了6项指标，涵盖视觉质量、音频质量与音视频同步性，确保评测的全面性。

研究指出音频基础模型的不足，未来需加强音频编辑能力。

Agent-in-the-loop质控框架显著提高了数据的合格率，从36%提升至83%，减少了人工介入。

未来需扩展数据集的开放域泛化能力，提升基础模型能力，并引入参考图以支持更直观的编辑范式。

🏷️