本研究提出PRISM方法,旨在解决多模态大型语言模型在视觉指令调优中的数据冗余和高计算成本问题。通过皮尔逊相关分析,PRISM能够有效选择高价值实例,将数据选择时间缩短至传统方法的30%。实验证明其在多个基准测试中优于传统方法。
本文介绍了多模态模型LLaVA及其改进版本LLaVAR,结合图像和文本数据,显著提升了视觉指令调优和视频质量评估(VQA)的性能。研究提出了新的数据收集方法和框架,增强了模型的指令跟随能力,并在多个基准测试中取得了优异成绩。
完成下面两步后,将自动完成登录并继续当前操作。