From Head to Tail: Achieving Balanced Performance in Large Vision-Language Models through Adaptive Data Calibration
💡
原文英文,约100词,阅读约需1分钟。
📝
内容提要
本研究分析了大规模视觉语言模型中的长尾问题,发现训练数据在头部概念上过度代表,而尾部概念被低估。提出自适应数据精炼框架(ADR),通过数据重平衡和合成,显著改善了长尾问题,提升了LLaVA 1.5的平均性能4.36%。
🎯
关键要点
- 大规模视觉语言模型(LVLM)在训练数据中存在长尾问题,头部概念过度代表,尾部概念被低估。
- 提出了自适应数据精炼框架(ADR),通过数据重平衡和数据合成来解决长尾问题。
- ADR显著改善了训练数据的长尾问题,提升了LLaVA 1.5的平均性能4.36%。
➡️