本研究探索了预训练的视觉语言模型(VLM)和大型语言模型(LLM)在视觉常识推理中的协同能力。通过名为ViCor的协作方法,LLM主动引导VLM集中关注和收集相关的视觉元素,支持潜在的常识推断。该方法在两个VCR基准数据集上表现优越。
本文介绍了2023年人工智能(AI)在技术性能方面的全面进展,包括视觉常识推理、道德推理、因果推理、音频生成、智能体和强化学习等方面的能力和表现。同时,还介绍了一些新的技术和方法,如提示技巧、微调和闪电解码,以提高AI系统的性能和效率。此外,还提到了AI系统对环境的影响和一些积极的环境保护应用。总体而言,AI在多个领域的性能和能力已经取得了显著的进展。
本研究探索了预训练的视觉语言模型(VLM)和大型语言模型(LLM)在视觉常识推理中的协同能力。通过名为ViCor的协作方法,LLM主动引导VLM集中关注和收集相关的视觉元素,支持潜在的常识推断。该方法在两个VCR基准数据集上取得了优越表现。
CLIP-TD是一种自适应选择标记的蒸馏方法,适用于视觉-语言任务。在低量数据和领域迁移条件下,CLIP-TD在视觉常识推理、视觉蕴涵推理和视觉问答任务上获得了最先进的性能。
本研究提出了一种名为CLIP-TD的方法,通过有针对性的蒸馏来适应每个实例的自适应选择标记。实验证明,CLIP-TD在视觉常识推理、视觉蕴涵推理和视觉问答等任务中,在低量数据和领域迁移条件下取得了显著的增益,并达到了最先进的性能。
完成下面两步后,将自动完成登录并继续当前操作。