小红花·文摘
  • 首页
  • 广场
  • 排行榜🏆
  • 直播
  • FAQ
Dify.AI
基于文本条件的JEPA用于学习语义丰富的视觉表示

本文介绍了一种视觉自监督学习方法——文本条件JEPA(TC-JEPA),该方法通过图像标题减少特征预测的不确定性。TC-JEPA利用细粒度文本调节器,使图像特征更具语义意义,从而提升下游任务的表现和训练稳定性。该方法在视觉理解和推理任务中优于对比学习,展示了新的基于特征预测的视觉-语言预训练范式。

基于文本条件的JEPA用于学习语义丰富的视觉表示

Apple Machine Learning Research
Apple Machine Learning Research · 2026-05-07T00:00:00Z

本研究提出了一种新颖的动作时间连贯性学习方法(AcTOL),旨在解决视觉-语言预训练中因过度关注未来帧导致的关联错误。该方法通过语义对比学习视频帧的自然顺序,显著提升了下游操作任务的性能,并增强了对不同语言风格指令的鲁棒性,推动了具身智能体的发展。

Provable Ordering and Continuity in Vision-Language Pretraining for Generalizable Embodied Agents

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-02-03T00:00:00Z

本文介绍了多层语义对齐的视觉语言预训练方法(MVPTR),强调多模态学习的协同作用。提出了X$^2$-VLM模型,优化了图像文本和视频文本任务的性能,并提出了MMStar基准以评估视觉语言模型的多模态能力,解决了数据泄漏问题。通过SIMA框架和X-VILA模型,提升了视觉与语言的对齐性和跨模态理解能力。

通过模态集成率解码大型视觉语言模型中的跨模态对齐

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-10-09T00:00:00Z

COSMO是解决视觉语言预训练中虚假负样本问题的方法,通过处理虚假负样本和采用GRIT策略转换为正样本。实验证明COSMO在多个下游任务上有效,重要性超过解决虚假正样本的重要性。与BLIP-family模型兼容。

FFF: 修正有缺陷的基础对比预训练会得到非常强大的视觉 - 语言模型

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-05-16T00:00:00Z

DeViDe是一种基于Transformer的新方法,用于胸片X光的视觉语言预训练,利用放射照片描述和开放网络中的通用视觉特征,提供了对医学知识的整体快照。在零样本设置下,DeViDe在外部数据集上表现出与全监督模型相当的性能,并在三个大规模数据集上达到了最先进的结果。此外,DeViDe在下游任务和分割任务上也展示了优越的性能。

DeViDe:基于分面的医学知识,以提升医学视觉 - 语言预训练

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-04-04T00:00:00Z

利用多模态信息的视觉语言预训练(VLP)在自然领域的视觉识别和胸部 X 射线(CXR)的医学影像诊断方面取得了重大成功。UniChest是一个征服与分割的预训练框架,旨在充分利用多个源 CXRs 的协作优势,同时减少源异质性的负面影响。

UniChest: 多源胸部 X 射线分级的征服和分割预训练

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2023-12-18T00:00:00Z
  • <<
  • <
  • 1 (current)
  • >
  • >>
👤 个人中心
在公众号发送验证码完成验证
登录验证
在本设备完成一次验证即可继续使用

完成下面两步后,将自动完成登录并继续当前操作。

1 关注公众号
小红花技术领袖公众号二维码
小红花技术领袖
如果当前 App 无法识别二维码,请在微信搜索并关注该公众号
2 发送验证码
在公众号对话中发送下面 4 位验证码
小红花技术领袖俱乐部
小红花·文摘:汇聚分发优质内容
小红花技术领袖俱乐部
Copyright © 2021-
粤ICP备2022094092号-1
公众号 小红花技术领袖俱乐部公众号二维码
视频号 小红花技术领袖俱乐部视频号二维码