控制视觉 - 语言模型用于通用图像修复

💡 原文中文,约200字,阅读约需1分钟。
📝

内容提要

CLIP-TD是一种自适应选择标记的蒸馏方法,适用于视觉-语言任务。在低量数据和领域迁移条件下,CLIP-TD在视觉常识推理、视觉蕴涵推理和视觉问答任务上获得了最先进的性能。

🎯

关键要点

  • CLIP-TD是一种自适应选择标记的蒸馏方法,适用于视觉-语言任务。
  • CLIP-TD在低量数据和领域迁移条件下表现出显著增益。
  • CLIP-TD在视觉常识推理、视觉蕴涵推理和视觉问答任务上取得了最先进的性能。
➡️

继续阅读