小红花·文摘
  • 首页
  • 广场
  • 排行榜🏆
  • 直播
  • FAQ
Dify.AI

研究者提出了一个新任务,通过整合语言和视觉信息来解决LVLMs在艺术品解释生成任务中的困难。他们提供了评估数据集和度量标准,并发布了一个训练数据集,以帮助LVLMs学习艺术品解释。

KALE:一种增强异构图的艺术作品图像描述系统

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-09-17T00:00:00Z

大规模视觉语言模型(LVLMs)在艺术品解释生成任务中遇到困难,需要整合语言和视觉信息。研究者提出了一个新任务,并提供了评估数据集和度量标准。他们还发布了一个训练数据集,以帮助LVLMs学习艺术品解释。数据集可在链接中找到。

大型视觉语言模型是否掌握了艺术史?

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-09-05T00:00:00Z

研究发现社会属性影响有害内容和评分,探讨减缓偏见策略。

GradBias:揭示文本到图像生成模型中的词语影响偏见

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-08-29T00:00:00Z

本研究发现,使用指令调优增强大规模视觉语言模型(LVLMs)可能导致后门攻击。研究评估了六种典型后门攻击在图像字幕基准测试上的普适性,并发现攻击的普适性与后门触发器与特定图像/模型的不相关性以及触发器模式的偏好相关。研究还改进了现有的后门攻击方法,在跨域场景的普适性方面取得了显著改进。因此,即使是简单的传统后门策略也对LVLMs构成严重威胁,需要更多关注和深入研究。

探讨视觉状态空间模型对孤立攻击的鲁棒性

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-08-21T00:00:00Z

大规模视觉语言模型(LVLMs)在艺术品解释生成任务中存在困难,需要整合语言和视觉信息。研究者提出了一个新任务,并发布了相应的评估数据集和训练数据集。LVLMs 在仅从图像中获取知识方面存在限制。

GalleryGPT:使用大型多模态模型分析绘画作品

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-08-01T00:00:00Z

大规模视觉语言模型(VLMs)在自然视觉任务中表现出色,推动跨领域的研究者探索特定领域的 VLMs。广义领域提示学习(GDPL)框架解决了学术界对 VLMs 研究受限的问题。GDPL 通过小规模的特定领域基础模型和最少的提示样本,使 VLMs 的识别能力从自然视觉转移到特定领域,无需大量数据或资源。实验证明了 GDPL 的有效性,并展示了在提示学习范式下实现最先进的领域识别性能的能力。

VolDoGer:基于 LLM 辅助的视觉 - 语言任务领域泛化数据集

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-07-29T00:00:00Z

本文研究了大规模视觉语言模型(LVLMs)在多对象幻觉方面的困难,通过引入基于识别的对象探针评估(ROPE),发现LVLMs在关注多个对象时更容易产生幻觉。对象类别分布、数据特定因素、显著性和频率以及模型内在行为都会影响幻觉行为。作者希望提供解决这些问题的见解和进展。

视觉语言模型中的多物体幻觉

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-07-08T00:00:00Z

大规模视觉语言模型(VLMs)在自然视觉任务中表现出色,推动跨领域的研究者探索特定领域的 VLMs。广义领域提示学习(GDPL)框架解决了学术界对 VLMs 研究的挑战。GDPL 通过小规模的特定领域基础模型和最少的提示样本,使 VLMs 的强大识别能力从自然视觉转移到特定领域,无需大量数据或资源。实验证明了 GDPL 的有效性,并展示了在提示学习范式下实现最先进的领域识别性能的能力。

通过无监督知识蒸馏提高学得提示的零样本推理能力

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-07-03T00:00:00Z

大规模视觉语言模型(VLMs)在自然视觉任务中表现出色,推动跨领域的研究者探索特定领域的 VLMs。广义领域提示学习(GDPL)框架解决了学术界对 VLMs 研究受限的问题。通过小规模的特定领域基础模型和最少的提示样本,GDPL 实现了 VLMs 在特定领域的强大识别能力转移。实验证明了 GDPL 的有效性,并展示了在提示学习范式下实现最先进的领域识别性能的能力。

GalLoP: 学习视觉 - 语言模型的全局和局部提示

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-07-01T00:00:00Z

研究发现,使用指令调优增强大规模视觉语言模型(LVLMs)会增加安全风险,可能导致后门攻击。研究结果表明,攻击的普适性与后门触发器与特定图像/模型的不相关性以及触发器模式的偏好相关。研究还改进了现有的后门攻击方法,在跨域场景的普适性方面取得了显著改进。该研究强调即使是简单的传统后门策略也对LVLMs构成严重威胁,需要更多关注和深入研究。

重访大型视觉语言模型的后门攻击

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-06-27T00:00:00Z

大规模视觉语言模型(VLMs)在自然视觉任务中表现出色,推动跨领域的研究者探索特定领域的 VLMs。广义领域提示学习(GDPL)框架通过小规模的特定领域基础模型和最少的提示样本,使 VLMs 的强大识别能力从自然视觉转移到特定领域,无需大量数据或资源。实验证明 GDPL 在不同领域的有效性,并展示了在提示学习范式下实现最先进的领域识别性能的能力。

DKPROMPT:领域知识引导视觉 - 语言模型进行开放世界规划

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-06-25T00:00:00Z

该研究提出了一种轻量级二元分类器来检测大规模视觉语言模型中的幻觉,并在四个最先进的模型上进行了评估。研究还分析了幻觉的原因和现有的缓解方法,并提出了改进的数据集和训练范式。

MetaToken: 通过元分类检测图像描述中的虚构

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-05-29T00:00:00Z

大规模视觉语言模型(VLMs)展示了强大的零样本泛化能力。研究者提出了选择性双教师知识迁移框架,解决了VLMs在下游任务中的遗忘和降低零样本分类能力的问题。实验证明该框架对于防止灾难性遗忘和零样本退化的最新持续学习方法是有利的。

将隐式多模态知识融入到零资源对话生成中的 L-LMs

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-05-16T00:00:00Z

大规模视觉语言模型(VLMs)在自然视觉任务中表现出色,推动跨领域的研究者探索特定领域的 VLMs。广义领域提示学习(GDPL)框架解决了学术界对 VLMs 研究受限的问题。通过小规模的特定领域基础模型和最少的提示样本,GDPL 实现了 VLMs 在特定领域的强大识别能力转移,无需大量数据或资源。实验证明了 GDPL 的有效性,并展示了在提示学习范式下实现最先进的领域识别性能的能力。

推动科学中的 AI 公平性:通用领域提示学习助力面向普及的 VLM 研究

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-05-14T00:00:00Z

大规模视觉语言模型(LVLMs)在艺术品解释生成任务中存在困难,需要整合语言和视觉信息。研究者提出了一个新任务,并发布了相应的评估数据集和训练数据集。LVLMs 在仅从图像中获取知识方面存在限制。

RelationVLM: 构建大型视觉 - 语言模型以理解视觉关系

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-03-19T00:00:00Z

大规模视觉语言模型(VLMs)展示了强大的零样本泛化能力。研究者提出了选择性双教师知识迁移框架,通过测量双教师VLMs的特征差异,缓解灾难性遗忘并保留零样本能力。实验证明该框架对于持续学习方法是有利的。

通过专家混合适配器增强视觉语言模型的持续学习

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-03-18T00:00:00Z

本研究使用稀疏门控专家组技术解决大规模视觉语言模型训练中的挑战,并在等效计算成本下实现最先进性能的潜力。通过对模型解释性的影响和与VLM扩展计算性能之间的折衷,本文为大规模视觉语言模型的扩展提供了洞见,并激发了对MoE在其他多模态机器学习应用中的研究。

混合专家解开深度强化学习的参数缩放

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-02-13T00:00:00Z

研究者提出了开放词汇伪装的物体分割任务(OVCOS),并构建了大规模数据集OVCamo。通过集成类别语义知识和视觉结构线索,该方法能够有效捕捉伪装对象,并在OVCamo数据集上超过了先前的方法。希望该任务能推动开放词汇密集预测任务的研究。

OCTOPUS: 使用语义理解在混合现实中进行开放词汇内容跟踪和对象放置

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2023-12-20T00:00:00Z

本文研究了大规模视觉-语言模型的集成方法,通过选择具有高度互补性的多种模型来解决任务,实验结果表明集成模型的准确率潜在提升很大。

如何(不)为 VQA 集成 LVLMs

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2023-10-10T00:00:00Z
  • <<
  • <
  • 1 (current)
  • >
  • >>
👤 个人中心
在公众号发送验证码完成验证
登录验证
在本设备完成一次验证即可继续使用

完成下面两步后,将自动完成登录并继续当前操作。

1 关注公众号
小红花技术领袖公众号二维码
小红花技术领袖
如果当前 App 无法识别二维码,请在微信搜索并关注该公众号
2 发送验证码
在公众号对话中发送下面 4 位验证码
友情链接: MOGE.AI 九胧科技 模力方舟 Gitee AI 菜鸟教程 Remio.AI DeekSeek连连 53AI 神龙海外代理IP IPIPGO全球代理IP 东波哥的博客 匡优考试在线考试系统 开源服务指南 蓝莺IM Solo 独立开发者社区 AI酷站导航 极客Fun 我爱水煮鱼 周报生成器 He3.app 简单简历 白鲸出海 T沙龙 职友集 TechParty 蟒周刊 Best AI Music Generator

小红花技术领袖俱乐部
小红花·文摘:汇聚分发优质内容
小红花技术领袖俱乐部
Copyright © 2021-
粤ICP备2022094092号-1
公众号 小红花技术领袖俱乐部公众号二维码
视频号 小红花技术领袖俱乐部视频号二维码