小红花·文摘
  • 首页
  • 广场
  • 排行榜🏆
  • 直播
  • FAQ
Dify.AI

本文研究了大型视觉语言模型(LVLM)中的对象幻觉问题,提出了一种新方法——真实引导预干预(TruthPrInt)。研究发现,LVLM的内部状态可以指示幻觉行为,不同模型在潜在子空间中表现出相似的幻觉模式。实验结果表明,TruthPrInt在多个基准测试中显著优于现有方法。

TruthPrInt:通过潜在真实引导预干预缓解大型视觉语言模型的对象幻觉

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-03-13T00:00:00Z

FlexAttention是一种增强大型视觉语言模型的方法,能够处理高分辨率图像并提高性能和效率。它通过动态选择重要区域和分层自注意机制来实现,并在多个基准测试中表现更好,减少了40%的计算成本。

FlexAttention:解决二次复杂度问题,将大型视觉语言模型的输入提升至1008 | ECCV 2024 - 晓飞的算法工程笔记

晓飞的算法工程笔记
晓飞的算法工程笔记 · 2024-08-28T01:48:00Z

本文探讨了大型视觉语言模型(LVLMs)中的幻觉问题,并提出了Instruction Contrastive Decoding(ICD)和Visual Contrastive Decoding(VCD)等优化策略,以减少幻觉现象。研究表明,这些方法有效提升了模型的生成准确性和内容可信度,且无需额外训练数据。实验验证了这些策略在不同模型中的广泛适用性和有效性。

自省解码:减轻大型视觉语言模型的幻觉

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-08-04T00:00:00Z

本研究探讨了大型视觉语言模型(LVLMs)中的幻觉问题,提出了新的评估基准和数据集,以提高模型的准确性和可靠性。研究发现医学领域的LVLMs更易产生幻觉,并强调了模型在实际应用中的稳健性需求。同时,开发了细粒度评估指标FAITHSCORE,揭示了当前模型在生成内容时的不足,为未来改进提供了方向。

BEAF:评估视觉语言模型中的幻觉的前后变化

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-07-18T00:00:00Z

本文介绍了Med-HallMark基准,旨在提高医学多模态领域中大型视觉语言模型(LVLMs)的幻觉检测与评估。提出了MediHall Score和MediHallDetector,并分析了LVLMs中的幻觉问题,提供了缓解建议,建立了新的评估框架和数据集,以增强医疗领域语言模型的安全性和可靠性。

MedVH:面向医学环境中大型视觉语言模型的幻觉系统评估

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-07-03T00:00:00Z

本文提出了一种新方法,称为内存空间视觉提示(MemVP),通过在语言模型的前馈网络中加入视觉提示与权重的连接,大大减少了训练时间和推理延迟,并且在实验证明其性能超越了先前的方法。

面向高效视觉 - 语言微调的记忆空间视觉提示

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-05-09T00:00:00Z

大型视觉语言模型(LVLMs)存在幻觉问题,研究者提出了多维度评估基准和两阶段评估框架,证明其比现有方法更全面、与人类更相关,并强调了解决幻觉问题的关键平衡。

VALOR-EVAL: 大型视觉语言模型的整体覆盖和忠实度评估

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-04-22T00:00:00Z

本文介绍了一种针对大型视觉语言模型的训练策略MoE-tuning,通过构建一个具有巨大数量参数但恒定计算成本的稀疏模型,有效解决多模态学习和模型稀疏性带来的性能退化问题。实验证明,MoE-LLaVA在视觉理解方面具有出色的能力,并且在模型输出的对象幻象基准测试中超越了LLaVA-1.5-13B,在各种视觉理解数据集上表现可与LLaVA-1.5-7B相媲美。通过MoE-LLaVA,我们旨在为稀疏LVLMs建立基准,并为未来开发更高效和有效的多模态学习系统提供有价值的见解。

密集训练,稀疏推断:重思混合专家语言模型的训练

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-04-08T00:00:00Z

本研究提出了两种策略来减轻大型视觉-语言模型中的偏见,包括仿射变换的校准和去偏抽样。研究还发现了模型在不同解码配置下的不稳定性,并提出了性能改进和公平性关切。实验证明这些策略有效减轻偏见,生成更有用和准确的插图。

教师 - 学生训练用于去偏:大型语言模型的一般排列去偏

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-03-20T00:00:00Z

研究发现大型视觉-语言模型(LVLMs)生成的内容存在偏见,主要受到底层大型语言模型(LLMs)的影响。为了纠正这些偏见并提高性能,研究提出了校准和去偏抽样两种策略。实验证明这些策略有效减轻偏见,生成更有用和准确的插图。

驾驭 LLMs 朝向无偏响应:一个因果引导的去偏框架

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-03-13T00:00:00Z

通过综合调查分析了大型视觉语言模型(LVLMs)中的幻觉问题,包括概念、症状多样性、挑战和评估方法。研究了幻觉的原因,包括训练数据和模型组件。回顾了现有的缓解方法,并讨论了未解问题和未来研究方向。

本能偏见:虚假图像导致多语言语言模型的幻觉

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-02-06T00:00:00Z

通过综合调查,研究了大型视觉语言模型(LVLMs)中的幻觉问题,包括幻觉的概念、症状、挑战、评估方法等。分析了幻觉的根本原因,讨论了现有方法和未解问题,并提出未来研究方向。

大型视觉语言模型中的幻觉调查

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-02-01T00:00:00Z

本文介绍了MoE-tuning训练策略,解决了大型视觉语言模型的多模态学习和模型稀疏性带来的性能退化问题。实验证明,MoE-LLaVA在视觉理解方面表现出色,并在对象幻象基准测试中超越了LLaVA-1.5-13B,与LLaVA-1.5-7B相媲美。

MoE-LLaVA:大规模视觉语言模型的专家混合

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-01-29T00:00:00Z

本文介绍了一种针对大型视觉语言模型的训练策略MoE-tuning,通过构建一个具有巨大数量参数但恒定计算成本的稀疏模型,有效解决多模态学习和模型稀疏性带来的性能退化问题。实验证明,MoE-LLaVA在视觉理解方面具有出色的能力,并且在模型输出的对象幻象基准测试中超越了LLaVA-1.5-13B,在各种视觉理解数据集上表现可与LLaVA-1.5-7B相媲美。通过MoE-LLaVA,我们旨在为稀疏LVLMs建立基准,并为未来开发更高效和有效的多模态学习系统提供有价值的见解。

LLaVA-MoLE:稀疏的 LoRA 专家混合模型用于缓解指令微调 MLLMs 中的数据冲突

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-01-29T00:00:00Z

GenZI是第一个零样本方法,用于生成3D人与场景的交互。通过从大型视觉-语言模型中提取交互先验知识,利用自然语言描述和场景中的粗略点位置,合成场景中的3D人模型的姿态和形状。与传统方法相比,GenZI不需要捕获3D交互数据,使用简单易用的文字提示进行灵活控制。实验证明该方法适用于各种场景类型。

无模板重构人物 - 物体交互与程序交互生成

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2023-12-12T00:00:00Z

大型视觉语言模型(LVLMs)在自然语言处理中取得成功,通过多样化的上下文配置来提高上下文学习性能,并改进对LVLM的理解。实验证明了LVLM在视觉问答(VQA)中的性能改善。

如何建立适合上下文内的序列用于视觉问答

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2023-12-04T00:00:00Z

GenZI是一种零样本方法,用于生成3D人与场景的交互。它利用大型视觉-语言模型从二维人-场景组合的语义空间中提取交互先验知识,并通过迭代优化过程合成场景中的3D人模型的姿态和形状。与传统方法相比,GenZI不需要捕获3D交互数据,可以通过简单的文字提示进行灵活控制。实验证明该方法适用于各种场景类型。

GenZI: 零 Shot 3D 人物场景交互生成

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2023-11-29T00:00:00Z

通过改进训练方法和引入新的评估基准,大型视觉语言模型生成更精确的回答并减少幻觉。在新的评估基准下,该方法实现了8.4%的改进,并在其他模型上也取得了性能提升。

OPERA: 通过过高信任惩罚和回顾分配减轻多模态大语言模型中的虚构问题

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2023-11-29T00:00:00Z

本文提出了一种利用大型视觉语言模型增强盲人和视力低下人士视觉感知的方法,通过整合图像识别结果和用户查询生成环境的详细描述,并识别潜在风险。实验结果表明该方法能够准确识别对象并为盲人和视力低下人士提供深入的环境描述和分析。

VisPercep:一种增强视觉感知能力的视觉语言方法(面向盲人和视力障碍人群)

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2023-10-31T00:00:00Z

本研究利用CLIP嵌入空间进行视觉情感分析,发现CLIP-E方法泛化能力优于现有模型。讨论了设计新基准和更好地利用大型视觉-语言模型的知识来解决任务的问题。

关于使用视觉语言模型进行视觉情感分析的研究:针对 CLIP 的一项研究

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2023-10-18T00:00:00Z
  • <<
  • <
  • 1 (current)
  • >
  • >>
👤 个人中心
在公众号发送验证码完成验证
登录验证
在本设备完成一次验证即可继续使用

完成下面两步后,将自动完成登录并继续当前操作。

1 关注公众号
小红花技术领袖公众号二维码
小红花技术领袖
如果当前 App 无法识别二维码,请在微信搜索并关注该公众号
2 发送验证码
在公众号对话中发送下面 4 位验证码
小红花技术领袖俱乐部
小红花·文摘:汇聚分发优质内容
小红花技术领袖俱乐部
Copyright © 2021-
粤ICP备2022094092号-1
公众号 小红花技术领袖俱乐部公众号二维码
视频号 小红花技术领袖俱乐部视频号二维码