小红花·文摘

大型语言模型对视频多模态发展产生影响。提出了新的多模态智能系统对齐策略，通过强化学习改进视频和文本内容对齐效果。方法VLM-RLAIF在多种视频测试中表现出卓越性能，超过现有方法。致力于开源代码、模型和数据集，促进研究。