CAPIVARA：在资源有限的语言中提高多语言 CLIP 性能的成本效益方法

原文约200字，阅读约需1分钟。发表于：。

CAPIVARA 是一种廉价的框架，用于增强低资源语言中多语言 CLIP 模型的性能，在零资源语言任务中具有卓越表现，通过使用图像字幕和机器翻译增强文本数据以生成多个低资源语言的合成字幕，优化培训流程以减轻计算成本，通过在单个 GPU 上对经过 CAPIVARA 训练的预训练多语言 CLIP 进行微调 2 小时，展示了在其他低资源语言中显著改进的潜力。

本文提出了一种新的参数高效的跨语言转移学习框架，利用基于翻译的对齐方法来缓解多语言差异，并探索参数高效的微调方法。经过实验表明，该框架显著减少了语言之间的差异，并在跨语言转移方面取得了改进，尤其在低资源场景中，同时只保留和微调极少量的参数。