在ICLR 2025会议上,ChartMoE论文被录取为口头报告。该模型通过多阶段对齐任务增强图表理解能力,采用MoE结构,显著提升视觉表征和性能。研究表明,ChartMoE在通用和图表领域均表现优异,减少了对通用知识的遗忘。
本研究提出LaVCa方法,利用大型语言模型生成自然语言描述,解决了深度神经网络在预测人脑视觉皮层体素活动时的解释难题,提高了体素选择性描述的准确性和细致性,为理解人类视觉表征提供了新视角。
本文提出了一种新的开放世界持续视觉表征学习方法DPaRL,通过动态生成提示增强模型对未见类别的泛化能力。实验结果表明,DPaRL在开放世界图像检索基准上表现优越,Recall@1提升4.7%,有效应对动态开放世界环境中的持续学习挑战。
本文研究了计算病理学中的视觉表征学习,利用大规模图像-文本对和病理知识树。研究构建了一个包含50,470个属性的知识树,涵盖32种组织和4,718种疾病。开发了一种知识增强的视觉-语言预训练方法,通过语言模型引导视觉学习。实验表明,该方法在跨模态检索和零样本分类任务中表现出色。代码和模型将公开。
本研究提出了DynaMo方法,通过自监督学习从专家示例中学习视觉表征,显著提升了下游模仿学习的性能,无需大量专家示例。
SegCLIP是一种基于CLIP的模型,实现了开放式词汇语义分割。通过训练文本-图像对来聚集补丁形成语义区域,并使用重构损失和KL损失与伪标签相结合来增强视觉表征。实验结果显示,SegCLIP在分割精度上超过了基线模型。
SegCLIP是一种基于CLIP的模型,实现了开放式词汇语义分割。通过训练文本-图像对来聚集补丁形成语义区域,并使用重构损失和KL损失与伪标签相结合来增强视觉表征。实验结果显示,该模型在分割精度上优于基线模型。
完成下面两步后,将自动完成登录并继续当前操作。