小红花·文摘
  • 首页
  • 广场
  • 排行榜🏆
  • 直播
  • FAQ
Dify.AI

本研究提出了一种新方法,通过语言描述控制对象中心表示学习,解决了现有模型可控性不足的问题。该方法能够在复杂场景中提取特定对象的表示,并在视觉语言任务中表现优异。

CTRL-O: Language-Controllable Object-Centric Visual Representation Learning

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-03-27T00:00:00Z

自ChatGPT发布以来,自然语言处理领域迅速发展,但大规模语言模型在不同语言和文化中的表现差异显著。本研究引入M5基准测试,评估41种语言下的视觉语言任务,强调高低资源语言的性能差异。

Griffon-G:通过大型多模态模型桥接视觉语言与视觉中心任务

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-10-21T00:00:00Z

研究提出了一种课程学习方法,优化视觉-语言任务,提高小规模多模态训练效果。结合文本预训练,课程学习在文本任务中表现出显著优势,特别是对小参数模型有明显帮助。这为在数据有限的环境中有效利用机器学习提供了新见解。

探索课程学习在视觉-语言任务中的应用:关于小规模多模态训练的研究

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-10-20T00:00:00Z

本研究提出了CMAL框架,通过锚点检测和跨模态学习增强视觉与文本的互动。新的自监督任务使CMAL在多个视觉语言任务中表现出色,尤其在SNLI-VE和REC数据集上取得了最佳成绩。

CMAL:一种新颖的跨模态关联学习框架用于视觉-语言预训练

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-10-16T00:00:00Z

本研究提出了MMEvol框架,通过感知、认知推理和交互进化提升多模态大型语言模型的数据质量,生成复杂多样的图像-文本数据集。在13个视觉-语言任务中,准确率平均提高3.1个百分点,并在九个任务上达到最先进水平。

HERM:基准测试及提升面向人类理解的多模态大型语言模型

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-10-09T00:00:00Z

最近的多模态大型语言模型 (MLLMs) 在感知图像以及遵循开放性指令方面表现出令人印象深刻的能力。研究者提出了Muffin框架和UniMM-Chat数据集,Muffin在广泛的视觉语言任务中实现了最先进的性能。

MMEvol:通过Evol-Instruct赋能多模态大语言模型

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-09-09T00:00:00Z

本研究通过引入场景图表达模块(SGE)解决了大规模视觉语言模型中由于图像分块导致的视觉理解能力不足的问题。该方法能够提取和结构化图像中的复杂语义信息,显著提升模型在视觉语言任务中的表现,对细致语义细节的保留和提升视觉理解具有潜在影响。

LLaVA-SG:利用场景图作为视觉语义表达的视觉语言模型

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-08-29T00:00:00Z

VistaLLM是一种通用视觉系统,能够处理视觉输入并统一各种视觉-语言任务。通过使用图像分词器提取特征和梯度感知的自适应采样技术,VistaLLM在性能和结果方面取得了显著提高。

FlexEdit:将自由形状掩膜与VLLM结合实现灵活的图像编辑

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-08-22T00:00:00Z

最近的多模态大型语言模型 (MLLMs) 在感知图像以及遵循开放性指令方面表现出令人印象深刻的能力。研究者提出了 Muffin 框架和 UniMM-Chat 数据集,Muffin 在广泛的视觉语言任务中实现了最先进的性能。

跨模态适配器:高效的多模态大型语言模型

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-08-13T00:00:00Z

该研究通过扩展数据集和模型架构,进一步探索了具有对比语言 - 图像预训练(CLIP)的视觉语言任务的性能。提出了RWKV-CLIP,通过引入多样化的描述生成框架,在多个下游任务中实现了最先进的性能。

ComKD-CLIP: 针对对比性语言-图像预训练模型的全面知识蒸馏

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-08-08T00:00:00Z

最近的多模态大型语言模型 (MLLMs) 在感知图像以及遵循开放性指令方面表现出令人印象深刻的能力。研究者提出了Muffin框架和UniMM-Chat数据集,Muffin在广泛的视觉语言任务中实现了最先进的性能。

增强模型性能:另一种视觉 - 语言教学调整方法

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-07-25T00:00:00Z

最近的多模态大型语言模型 (MLLMs) 在感知图像以及遵循开放性指令方面表现出令人印象深刻的能力。研究者提出了Muffin框架和UniMM-Chat数据集,Muffin在广泛的视觉语言任务中实现了最先进的性能。

FIRE: 用于多模态模型反馈融合和优化评估的数据集

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-07-16T00:00:00Z

该研究通过扩展数据集和模型架构,进一步探索了具有对比语言 - 图像预训练(CLIP)的视觉语言任务的性能。提出了RWKV-CLIP,通过引入多样化的描述生成框架,在多个下游任务中实现了最先进的性能。

RWKV-CLIP:一个稳健的视觉 - 语言表示学习器

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-06-11T00:00:00Z

该研究提出了一种新的框架,通过双重聚焦机制提升了视觉-语言任务的性能。该模型综合考虑全局、细节和综合因素,利用图像信息和问题响应进行深入分析,减少了幻觉现象,并提高了各种视觉-语言任务的性能。

双焦点:整合文本式个体检索中的正负描述符的统一框架

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-05-13T00:00:00Z

最近的多模态大型语言模型 (MLLMs) 在感知图像以及遵循开放性指令方面表现出令人印象深刻的能力。研究者提出了Muffin框架和UniMM-Chat数据集,Muffin在广泛的视觉语言任务中实现了最先进的性能。

OmniFusion 技术报告

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-04-09T00:00:00Z

GIT是一个生成式图像到文本的转换器,用于视觉语言任务。通过简化的体系结构和扩大的预训练数据和模型规模,GIT在12个基准测试中表现最佳。

GiT: 通向通用视觉 Transformer 的普适语言接口

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-03-14T00:00:00Z

最近的多模态大型语言模型 (MLLMs) 在感知图像以及遵循开放性指令方面表现出令人印象深刻的能力。研究者提出了Muffin框架和UniMM-Chat数据集,Muffin在广泛的视觉语言任务中实现了最先进的性能。

MM1: 多模态 LLM 预训练的方法、分析与洞察

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-03-14T00:00:00Z

该研究提出了一种新颖的框架,通过引入双重聚焦机制,提升了视觉-语言任务的性能。该模型利用图像信息和问题响应,通过识别合适的子区域进行深入分析,减少了大型语言模型中的幻觉现象,提高了各种视觉-语言任务的性能。

双重焦点:在多模态大型语言模型中整合宏观和微观视角

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-02-22T00:00:00Z

GIT是一个生成式图像到文本的转换器,用于视觉语言任务。通过简化的体系结构和扩大的预训练数据和模型规模,GIT在12个基准测试中表现最佳。

GIVT: 生成无限词汇的变形器

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2023-12-04T00:00:00Z

本文介绍了一种名为Dynamic Visual Prompting(DVP)的新型转移学习方法,将预训练语言模型(PLMs)与不同的视觉语言任务相结合。DVP在效率和性能方面都具有优势,并且能够很好地适应预训练语言模型与VL任务相结合的需求。

AutoVP:自动视觉提示框架与基准

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2023-10-12T00:00:00Z
  • <<
  • <
  • 1 (current)
  • 2
  • >
  • >>
👤 个人中心
在公众号发送验证码完成验证
登录验证
在本设备完成一次验证即可继续使用

完成下面两步后,将自动完成登录并继续当前操作。

1 关注公众号
小红花技术领袖公众号二维码
小红花技术领袖
如果当前 App 无法识别二维码,请在微信搜索并关注该公众号
2 发送验证码
在公众号对话中发送下面 4 位验证码
友情链接: MOGE.AI 九胧科技 模力方舟 Gitee AI 菜鸟教程 Remio.AI DeekSeek连连 53AI 神龙海外代理IP IPIPGO全球代理IP 东波哥的博客 匡优考试在线考试系统 开源服务指南 蓝莺IM Solo 独立开发者社区 AI酷站导航 极客Fun 我爱水煮鱼 周报生成器 He3.app 简单简历 白鲸出海 T沙龙 职友集 TechParty 蟒周刊 Best AI Music Generator

小红花技术领袖俱乐部
小红花·文摘:汇聚分发优质内容
小红花技术领袖俱乐部
Copyright © 2021-
粤ICP备2022094092号-1
公众号 小红花技术领袖俱乐部公众号二维码
视频号 小红花技术领袖俱乐部视频号二维码