小红花·文摘

大型语言模型对视频多模态智能系统的发展产生了影响。提出了一种新的对齐策略，通过强化学习来改进视频和文本内容的对齐效果。方法 VLM-RLAIF 在多种视频基准测试中表现出卓越性能，超过了现有方法。计划开源代码、模型和数据集，促进该领域的进一步研究。