小红花·文摘

本研究分析了大规模视觉语言模型中的长尾问题，发现训练数据在头部概念上过度代表，而尾部概念被低估。提出自适应数据精炼框架（ADR），通过数据重平衡和合成，显著改善了长尾问题，提升了LLaVA 1.5的平均性能4.36%。