小红花·文摘

本研究提出视频-SALMONN 2模型，通过多轮偏好优化方法提升视频描述生成的准确性和完整性，错误率降低40%和20%。该模型在视频字幕任务中表现优异，展示了在视频文本检索、字幕生成和问答等任务中的应用潜力。研究强调音频和视觉信号的整合在视频理解中的重要性。