小红花·文摘

本文提出了一种基于领域专家积混合策略的方法（MoKGE），旨在通过常识知识图谱提升生成推理的多样性。研究表明，MoKGE显著提高了多样性，并在多个基准测试中表现出与准确性相当的性能。此外，探讨了大型语言模型在多语言任务中的应用及其在视觉常识推理中的协同能力，提出了新的评估方法和数据集，以促进跨语言常识推理的发展。

通过上下文学习提高大型语言模型对常识生成的多样性

BriefGPT - AI 论文速递 ·

本研究探讨了预训练视觉语言模型（VLM）与大型语言模型（LLM）在视觉常识推理（VCR）中的协同能力。提出的ViCor方法通过LLM引导VLM关注视觉元素，显著提升推理性能。同时，研究介绍了PAVCR网络，能够融合视觉与文本信息，提供直观解释，并在多个基准数据集上表现优越。

EventLens: 利用事件感知预训练和跨模态链接提升视觉常识推理

BriefGPT - AI 论文速递 ·

第 2 章：技术性能 —— 2024 年人工智能指数报告 [译]

宝玉的分享 ·

本研究探索了预训练的视觉语言模型（VLM）和大型语言模型（LLM）在视觉常识推理中的协同能力。通过名为ViCor的协作方法，LLM主动引导VLM集中关注和收集相关的视觉元素，支持潜在的常识推断。该方法在两个VCR基准数据集上取得了优越表现。

CounterCurate：通过反事实的例子增强物理和语义的视觉 - 语言组合推理能力

BriefGPT - AI 论文速递 ·

CLIP-TD是一种自适应选择标记的蒸馏方法，适用于视觉-语言任务。在低量数据和领域迁移条件下，CLIP-TD在视觉常识推理、视觉蕴涵推理和视觉问答任务上获得了最先进的性能。

控制视觉 - 语言模型用于通用图像修复

BriefGPT - AI 论文速递 ·

本研究提出了一种名为CLIP-TD的方法，通过有针对性的蒸馏来适应每个实例的自适应选择标记。实验证明，CLIP-TD在视觉常识推理、视觉蕴涵推理和视觉问答等任务中，在低量数据和领域迁移条件下取得了显著的增益，并达到了最先进的性能。

AD-CLIP: 利用 CLIP 在提示空间中调适领域

BriefGPT - AI 论文速递 ·