小红花·文摘
  • 首页
  • 广场
  • 排行榜🏆
  • 直播
  • FAQ
Dify.AI
基于文本条件的JEPA用于学习语义丰富的视觉表示

本文介绍了一种视觉自监督学习方法——文本条件JEPA(TC-JEPA),该方法通过图像标题减少特征预测的不确定性。TC-JEPA利用细粒度文本调节器,使图像特征更具语义意义,从而提升下游任务的表现和训练稳定性。该方法在视觉理解和推理任务中优于对比学习,展示了新的基于特征预测的视觉-语言预训练范式。

基于文本条件的JEPA用于学习语义丰富的视觉表示

Apple Machine Learning Research
Apple Machine Learning Research · 2026-05-07T00:00:00Z

本研究提出了一种新颖的动作时间连贯性学习方法(AcTOL),旨在解决视觉-语言预训练中因过度关注未来帧导致的关联错误。该方法通过语义对比学习视频帧的自然顺序,显著提升了下游操作任务的性能,并增强了对不同语言风格指令的鲁棒性,推动了具身智能体的发展。

Provable Ordering and Continuity in Vision-Language Pretraining for Generalizable Embodied Agents

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-02-03T00:00:00Z

本文介绍了多层语义对齐的视觉语言预训练方法(MVPTR),强调多模态学习的协同作用。提出了X$^2$-VLM模型,优化了图像文本和视频文本任务的性能,并提出了MMStar基准以评估视觉语言模型的多模态能力,解决了数据泄漏问题。通过SIMA框架和X-VILA模型,提升了视觉与语言的对齐性和跨模态理解能力。

通过模态集成率解码大型视觉语言模型中的跨模态对齐

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-10-09T00:00:00Z

本文探讨了多语言图像标题生成和检索的方法,利用CLIP等预训练模型在多样化数据集上取得了优越表现。研究表明,机器翻译和对比学习能有效提升多语言图像检索性能,尤其在低资源语言上表现突出。RankCLIP通过自我监督学习增强了图像与文本的对齐能力,推动了视觉语言预训练的发展。

LowCLIP:将CLIP模型架构适应于低资源语言的多模态图像检索任务

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-08-25T00:00:00Z

该论文提出了一种基于回归模型的方法,通过提取文本查询中的语义短语,反映查询与视频视觉特征的双模态交互,显著提高了时态动作定位的预测效果。研究表明,该方法在多个数据集上优于现有技术,并提出了新的边界回归范式和视觉-语言预训练模型,验证了其有效性。

ActPrompt:通过行动线索进行视频时间基础的领域内特征适应

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-08-13T00:00:00Z

本文探讨了多模态对比模型中的模态差距及其对比损失的影响,提出了改进的对比损失函数和新方法(如SoftCLIP、RankCLIP、Gentle-CLIP等),以提升模态间对齐和下游任务性能,尤其在零样本分类中表现突出。这些方法通过优化嵌入空间和引入自监督学习,推动了视觉语言预训练的发展。

缓解差距:研究提升 CLIP 中跨模态对齐的方法

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-06-25T00:00:00Z

本文综述了多模式大语言模型在视觉-语言预训练中的进展,提出了高质量图像语言调整数据的特点和构建流程。研究表明,通过优化数据集和指令生成,可以有效提升模型性能,并介绍了新模型LLaVA在多个基准测试中的优异表现。

重新思考视觉语言模型中被忽视的方面

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-05-20T00:00:00Z

本文介绍了SUPMER、MetaPrompter和MetaPrompting等基于元学习和提示调整的模型,旨在提升few-shot学习和零样本分类的性能。这些方法在多个任务上显著提高了模型的适应性和准确性,尤其在视觉语言预训练模型的微调中表现优异。

元规范化的提示学习

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-04-01T00:00:00Z

本文综述了视觉-语言预训练(VLP)的最新进展,提出了多种模型和方法,包括统一的Transformer框架和无监督学习策略,旨在提升图像与文本的理解与生成能力。这些模型在多个下游任务中表现优异,推动了多模态学习的发展。

UrbanVLP:城市指标预测的多粒度视觉语言预训练基础模型

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-03-25T00:00:00Z

利用多模态信息的视觉语言预训练(VLP)在自然领域的视觉识别和胸部 X 射线(CXR)的医学影像诊断方面取得了重大成功。UniChest是一个征服与分割的预训练框架,旨在充分利用多个源 CXRs 的协作优势,同时减少源异质性的负面影响。

UniChest: 多源胸部 X 射线分级的征服和分割预训练

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2023-12-18T00:00:00Z
  • <<
  • <
  • 1 (current)
  • >
  • >>
👤 个人中心
在公众号发送验证码完成验证
登录验证
在本设备完成一次验证即可继续使用

完成下面两步后,将自动完成登录并继续当前操作。

1 关注公众号
小红花技术领袖公众号二维码
小红花技术领袖
如果当前 App 无法识别二维码,请在微信搜索并关注该公众号
2 发送验证码
在公众号对话中发送下面 4 位验证码
友情链接: MOGE.AI 九胧科技 模力方舟 Gitee AI 菜鸟教程 Remio.AI DeekSeek连连 53AI 神龙海外代理IP IPIPGO全球代理IP 东波哥的博客 匡优考试在线考试系统 开源服务指南 蓝莺IM Solo 独立开发者社区 AI酷站导航 极客Fun 我爱水煮鱼 周报生成器 He3.app 简单简历 白鲸出海 T沙龙 职友集 TechParty 蟒周刊 Best AI Music Generator

小红花技术领袖俱乐部
小红花·文摘:汇聚分发优质内容
小红花技术领袖俱乐部
Copyright © 2021-
粤ICP备2022094092号-1
公众号 小红花技术领袖俱乐部公众号二维码
视频号 小红花技术领袖俱乐部视频号二维码