本研究分析了大规模视觉语言模型中的长尾问题,发现训练数据在头部概念上过度代表,而尾部概念被低估。提出自适应数据精炼框架(ADR),通过数据重平衡和合成,显著改善了长尾问题,提升了LLaVA 1.5的平均性能4.36%。
完成下面两步后,将自动完成登录并继续当前操作。