本研究提出了seq-JEPA模型,旨在解决自监督算法在视觉表征学习中的局限性,特别是二视图范式下的不变性与不等变性之间的权衡。该模型能够同时学习这两种表示,显著提升图像分类等任务的性能。
研究者探讨了无语言监督的视觉表征学习在多模态任务中的潜力,提出的Web-SSL模型在视觉问题解答(VQA)中表现优异,甚至超越了语言监督的方法。通过扩展数据和模型规模,视觉自监督学习在OCR和图表理解任务中展现出强大能力。
本文研究了计算病理学的视觉表征学习问题,通过利用大规模图像-文本对和病理学中的领域特定知识。首次构建了包含50,470个有信息量的属性、涵盖4,718种需要病理诊断的疾病的病理知识树。开发了基于知识增强的视觉-语言预训练方法,取得了显著的性能提高。将提供代码、模型和病理知识树给研究社群。
本文研究了计算病理学的视觉表征学习问题,通过利用大规模图像-文本对和病理学中的领域特定知识。通过知识增强的视觉-语言预训练方法,成功提高了跨模态检索、零样本分类和零样本肿瘤亚型划分的性能。
研究者提出了一种利用视觉表征学习和无监督学习的框架进行文本语义学习的方法。该方法通过文本扰动实现对文本的连续感知,并通过大规模无监督主题对齐训练和自然语言推理监督来提高语义文本相似度性能。研究还展示了方法的跨语言迁移能力和语言迭代训练中的独特突破模式。
完成下面两步后,将自动完成登录并继续当前操作。