Squeeze Out Tokens from Samples for Finer-Grained Data Governance
💡
原文英文,约100词,阅读约需1分钟。
📝
内容提要
本研究提出了一种新的数据治理方法DataJuicer,通过双分支优化样本中的信息标记,提升图像-文本对齐效果。实验结果表明,DataJuicer在图像-文本检索、分类和视觉推理方面优于现有方法。
🎯
关键要点
- 本研究提出了一种新的数据治理方法DataJuicer,旨在解决数据扩展过程中的低效问题。
- DataJuicer通过双分支优化样本中的信息标记,提升了图像-文本对齐效果。
- 实验结果显示,DataJuicer在图像-文本检索、分类和视觉推理方面的性能优于现有方法。
🏷️
标签
➡️