From Head to Tail: Achieving Balanced Performance in Large Vision-Language Models through Adaptive Data Calibration

💡 原文英文,约100词,阅读约需1分钟。
📝

内容提要

本研究分析了大规模视觉语言模型中的长尾问题,发现训练数据在头部概念上过度代表,而尾部概念被低估。提出自适应数据精炼框架(ADR),通过数据重平衡和合成,显著改善了长尾问题,提升了LLaVA 1.5的平均性能4.36%。

🎯

关键要点

  • 大规模视觉语言模型(LVLM)在训练数据中存在长尾问题,头部概念过度代表,尾部概念被低估。
  • 提出了自适应数据精炼框架(ADR),通过数据重平衡和数据合成来解决长尾问题。
  • ADR显著改善了训练数据的长尾问题,提升了LLaVA 1.5的平均性能4.36%。
➡️

继续阅读