本研究提出了seq-JEPA模型,旨在解决自监督算法在视觉表征学习中的局限性,特别是二视图范式下的不变性与不等变性之间的权衡。该模型能够同时学习这两种表示,显著提升图像分类等任务的性能。
研究者探讨了无语言监督的视觉表征学习在多模态任务中的潜力,提出的Web-SSL模型在视觉问题解答(VQA)中表现优异,甚至超越了语言监督的方法。通过扩展数据和模型规模,视觉自监督学习在OCR和图表理解任务中展现出强大能力。
本文探讨了计算病理学中的视觉表征学习,构建了包含50,470个属性的病理知识树,并开发了基于知识增强的视觉-语言预训练方法。研究表明,该方法在跨模态检索和零样本分类等任务中显著提升了性能。此外,提出的无监督技术CPLIP在图像和文本对齐方面表现优异,推动了病理学研究的进展。
研究者提出了一种利用视觉表征学习和无监督学习的框架进行文本语义学习的方法。该方法通过文本扰动实现对文本的连续感知,并通过大规模无监督主题对齐训练和自然语言推理监督来提高语义文本相似度性能。研究还展示了方法的跨语言迁移能力和语言迭代训练中的独特突破模式。
完成下面两步后,将自动完成登录并继续当前操作。