小红花·文摘
  • 首页
  • 广场
  • 排行榜🏆
  • 直播
  • FAQ
Dify.AI

本研究提出了一种新方法,通过语言描述控制对象中心表示学习,解决了现有模型可控性不足的问题。该方法能够在复杂场景中提取特定对象的表示,并在视觉语言任务中表现优异。

CTRL-O: Language-Controllable Object-Centric Visual Representation Learning

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-03-27T00:00:00Z

自ChatGPT发布以来,自然语言处理领域迅速发展,但大规模语言模型在不同语言和文化中的表现差异显著。本研究引入M5基准测试,评估41种语言下的视觉语言任务,强调高低资源语言的性能差异。

Griffon-G:通过大型多模态模型桥接视觉语言与视觉中心任务

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-10-21T00:00:00Z

本研究提出了CMAL框架,通过锚点检测和跨模态学习增强视觉与文本的互动。新的自监督任务使CMAL在多个视觉语言任务中表现出色,尤其在SNLI-VE和REC数据集上取得了最佳成绩。

CMAL:一种新颖的跨模态关联学习框架用于视觉-语言预训练

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-10-16T00:00:00Z

最近的多模态大型语言模型 (MLLMs) 在感知图像以及遵循开放性指令方面表现出令人印象深刻的能力。研究者提出了Muffin框架和UniMM-Chat数据集,Muffin在广泛的视觉语言任务中实现了最先进的性能。

MMEvol:通过Evol-Instruct赋能多模态大语言模型

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-09-09T00:00:00Z

本研究通过引入场景图表达模块(SGE)解决了大规模视觉语言模型中由于图像分块导致的视觉理解能力不足的问题。该方法能够提取和结构化图像中的复杂语义信息,显著提升模型在视觉语言任务中的表现,对细致语义细节的保留和提升视觉理解具有潜在影响。

LLaVA-SG:利用场景图作为视觉语义表达的视觉语言模型

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-08-29T00:00:00Z

最近的多模态大型语言模型 (MLLMs) 在感知图像以及遵循开放性指令方面表现出令人印象深刻的能力。研究者提出了 Muffin 框架和 UniMM-Chat 数据集,Muffin 在广泛的视觉语言任务中实现了最先进的性能。

跨模态适配器:高效的多模态大型语言模型

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-08-13T00:00:00Z

该研究通过扩展数据集和模型架构,进一步探索了具有对比语言 - 图像预训练(CLIP)的视觉语言任务的性能。提出了RWKV-CLIP,通过引入多样化的描述生成框架,在多个下游任务中实现了最先进的性能。

ComKD-CLIP: 针对对比性语言-图像预训练模型的全面知识蒸馏

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-08-08T00:00:00Z

最近的多模态大型语言模型 (MLLMs) 在感知图像以及遵循开放性指令方面表现出令人印象深刻的能力。研究者提出了Muffin框架和UniMM-Chat数据集,Muffin在广泛的视觉语言任务中实现了最先进的性能。

增强模型性能:另一种视觉 - 语言教学调整方法

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-07-25T00:00:00Z

最近的多模态大型语言模型 (MLLMs) 在感知图像以及遵循开放性指令方面表现出令人印象深刻的能力。研究者提出了Muffin框架和UniMM-Chat数据集,Muffin在广泛的视觉语言任务中实现了最先进的性能。

FIRE: 用于多模态模型反馈融合和优化评估的数据集

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-07-16T00:00:00Z

该研究通过扩展数据集和模型架构,进一步探索了具有对比语言 - 图像预训练(CLIP)的视觉语言任务的性能。提出了RWKV-CLIP,通过引入多样化的描述生成框架,在多个下游任务中实现了最先进的性能。

RWKV-CLIP:一个稳健的视觉 - 语言表示学习器

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-06-11T00:00:00Z

最近的多模态大型语言模型 (MLLMs) 在感知图像以及遵循开放性指令方面表现出令人印象深刻的能力。研究者提出了Muffin框架和UniMM-Chat数据集,Muffin在广泛的视觉语言任务中实现了最先进的性能。

OmniFusion 技术报告

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-04-09T00:00:00Z

GIT是一个生成式图像到文本的转换器,用于视觉语言任务。通过简化的体系结构和扩大的预训练数据和模型规模,GIT在12个基准测试中表现最佳。

GiT: 通向通用视觉 Transformer 的普适语言接口

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-03-14T00:00:00Z

最近的多模态大型语言模型 (MLLMs) 在感知图像以及遵循开放性指令方面表现出令人印象深刻的能力。研究者提出了Muffin框架和UniMM-Chat数据集,Muffin在广泛的视觉语言任务中实现了最先进的性能。

MM1: 多模态 LLM 预训练的方法、分析与洞察

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-03-14T00:00:00Z

GIT是一个生成式图像到文本的转换器,用于视觉语言任务。通过简化的体系结构和扩大的预训练数据和模型规模,GIT在12个基准测试中表现最佳。

GIVT: 生成无限词汇的变形器

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2023-12-04T00:00:00Z

本文介绍了一种名为Dynamic Visual Prompting(DVP)的新型转移学习方法,将预训练语言模型(PLMs)与不同的视觉语言任务相结合。DVP在效率和性能方面都具有优势,并且能够很好地适应预训练语言模型与VL任务相结合的需求。

AutoVP:自动视觉提示框架与基准

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2023-10-12T00:00:00Z

该文介绍了一种名为“分解提示调优(DePT)”的新方法,通过将软提示分解为较短的软提示和一对低秩矩阵并使用两个不同的学习率进行优化,可以在某些情景下优于最先进的参数高效微调方法。作者在23个自然语言处理和视觉语言任务上进行了广泛实验,并发现DePT在模型规模增大时更加高效,在少样本学习设置和各种模型架构和规模中也表现出适应性。

DePT: 分解式提示调整用于参数高效微调

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2023-09-11T00:00:00Z
  • <<
  • <
  • 1 (current)
  • >
  • >>
👤 个人中心
在公众号发送验证码完成验证
登录验证
在本设备完成一次验证即可继续使用

完成下面两步后,将自动完成登录并继续当前操作。

1 关注公众号
小红花技术领袖公众号二维码
小红花技术领袖
如果当前 App 无法识别二维码,请在微信搜索并关注该公众号
2 发送验证码
在公众号对话中发送下面 4 位验证码
友情链接: MOGE.AI 九胧科技 模力方舟 Gitee AI 菜鸟教程 Remio.AI DeekSeek连连 53AI 神龙海外代理IP IPIPGO全球代理IP 东波哥的博客 匡优考试在线考试系统 开源服务指南 蓝莺IM Solo 独立开发者社区 AI酷站导航 极客Fun 我爱水煮鱼 周报生成器 He3.app 简单简历 白鲸出海 T沙龙 职友集 TechParty 蟒周刊 Best AI Music Generator

小红花技术领袖俱乐部
小红花·文摘:汇聚分发优质内容
小红花技术领袖俱乐部
Copyright © 2021-
粤ICP备2022094092号-1
公众号 小红花技术领袖俱乐部公众号二维码
视频号 小红花技术领袖俱乐部视频号二维码