在ICLR 2025会议上,ChartMoE论文被录取为口头报告。该模型通过多阶段对齐任务增强图表理解能力,采用MoE结构,显著提升视觉表征和性能。研究表明,ChartMoE在通用和图表领域均表现优异,减少了对通用知识的遗忘。
本研究提出LaVCa方法,通过大型语言模型生成与人脑视觉皮层体素活动相关的自然语言描述,解决了体素响应解释的挑战。该方法在描述体素选择性方面更为准确,提供了对人类视觉表征的深刻见解,展示了基于LLM的研究潜力。
本文提出了一种新的开放世界持续视觉表征学习方法DPaRL,通过动态生成提示增强模型对未见类别的泛化能力。实验结果表明,DPaRL在开放世界图像检索基准上表现优越,Recall@1提升4.7%,有效应对动态开放世界环境中的持续学习挑战。
本研究提出了DynaMo方法,通过自监督学习从专家示例中学习视觉表征,显著提升了下游模仿学习的性能,无需大量专家示例。
本文介绍了LeOCLR,一种新的对比学习方法,旨在提升视觉表征的实例辨识能力。实验证明,该方法在多个数据集上优于基线模型,特别是在ImageNet-1K上提高了5.1%。此外,PRCL框架通过概率表示增强了无监督训练的鲁棒性,显示出在多个基准测试中的优越性。
本文介绍了多种基于CLIP模型的开放词汇语义分割方法,如NACLIP、SegCLIP和TagCLIP,这些方法在不同数据集上表现出色。通过无监督学习和改进的损失函数,这些方法增强了模型的视觉表征和泛化能力,推动了语义分割技术的发展。
完成下面两步后,将自动完成登录并继续当前操作。