小红花·文摘
  • 首页
  • 广场
  • 排行榜🏆
  • 直播
  • FAQ
Dify.AI
VLSU:绘制人工智能安全的多模态联合理解的界限

本文介绍了视觉语言安全理解(VLSU)框架,用于评估多模态模型的安全性。研究表明,现有模型在图像与文本的联合理解方面表现不佳,准确率从90%降至20-55%。此外,模型在拒绝不安全内容与处理边界案例之间难以平衡,导致过度屏蔽或拒绝率下降。VLSU框架揭示了当前模型的不足,为未来研究提供了基础。

VLSU:绘制人工智能安全的多模态联合理解的界限

Apple Machine Learning Research
Apple Machine Learning Research · 2026-01-27T00:00:00Z
视觉语言安全理解(VLSU):联合多模态理解的局限性映射

本文介绍了视觉语言安全理解(VLSU)框架,旨在系统评估多模态模型的安全性。研究发现,现有模型在处理图像与文本的联合理解时准确率显著下降,从90%降至20-55%。此外,模型在拒绝不安全内容与处理边界案例之间难以取得平衡。VLSU框架通过构建包含8187个样本的基准,揭示了当前模型的不足,并为未来研究提供了重要测试平台。

视觉语言安全理解(VLSU):联合多模态理解的局限性映射

Apple Machine Learning Research
Apple Machine Learning Research · 2025-11-20T00:00:00Z

今天凌晨,Apple 举办了 2025 年 WWDC 全球开发者大会,发布了全新的 26 系列系统,并统一了视觉语言。少数派整理了开幕式的详细回顾和要点,方便用户了解动态。

一图流 | WWDC25 开幕式回顾

少数派
少数派 · 2025-06-09T22:41:17Z

NORA是一种小型开源视觉语言动作模型,旨在克服现有模型在视觉编码中的局限性。它通过降低计算开销和增强视觉推理,超越了大型视觉语言动作模型,成为实时机器人自主性的有效解决方案。

NORA: A Small Open-Sourced Generalist Vision Language Action Model for Embodied Tasks

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-04-28T00:00:00Z

许多人工智能公司的徽标设计呈现圆形、渐变和中心开口,常被视为类似屁眼。这种趋势源于心理学、模仿和设计委员会的保守选择。尽管有助于建立信任,但也可能限制创新。未来公司应考虑更独特的视觉语言,以避免设计千篇一律。

为什么人工智能公司的标志看起来像屁眼?

程序师
程序师 · 2025-04-15T02:38:57Z

阿里发布了Qwen2.5-VL-32B-Instruct多模态模型,具备强大的视觉语言和数学推理能力,支持本地部署,已在Hugging Face上开源,用户可直接体验。

32B本地部署!阿里开源最新多模态模型:主打视觉语言,数学推理也很强

量子位
量子位 · 2025-03-25T01:18:46Z

本研究提出了一种多频扰动(MFP)方法,旨在解决多模态大语言模型在视觉语言任务中的物体幻觉问题。该方法通过干扰视觉特征表示,显著减少幻觉现象,并在CHAIR基准测试中取得优异成绩。

Mitigating Object Hallucination in Multimodal Large Language Models through Multi-Frequency Perturbation

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-03-19T00:00:00Z
重磅发现!DeepSeek R1方法成功迁移到视觉领域,多模态AI迎来新突破!

VLM-R1是一个新开源项目,将DeepSeek的R1方法应用于视觉语言领域,展现出优越的稳定性和泛化能力,提供简便的训练流程,能够准确识别和推理视觉内容,推动多模态AI技术的发展。

重磅发现!DeepSeek R1方法成功迁移到视觉领域,多模态AI迎来新突破!

机器之心
机器之心 · 2025-02-20T07:22:43Z

谷歌推出了史上最大规模的视觉语言数据集WebLI-100B,包含1000亿图像-文本对,增强了多样性和多语言能力。研究表明,数据规模越大,模型对细节的理解越好,但CLIP模型的过滤可能影响文化多元性。研究团队包括ViT核心作者翟晓华,他将于2024年加入OpenAI。

谷歌全网扒1000亿图像文本对,ViT大佬坐镇:数据Scaling潜力依旧

量子位
量子位 · 2025-02-13T09:13:47Z

本研究提出了一种新方法,缩小了无编码视觉语言模型与编码模型之间的性能差距。通过分解和分层关联视觉与语言,EVEv2.0在数据效率和视觉推理能力上表现优越,展现了无编码架构在多模态任务中的潜力。

EVEv2:改进的无编码视觉语言模型基线

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-02-10T00:00:00Z

该研究提出了一种无人机-视觉语言-行动(UAV-VLA)系统,通过结合卫星图像处理和视觉语言模型,提高任务规划效率,减少航迹长度22%和目标定位误差,展示了其在空中作战中的价值。

UAV-Visual Language-Action System: Large-Scale Aerial Mission Generation

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-01-09T00:00:00Z

本研究提出了一种名为SuperClass的简化分类方法,直接使用标记的原始文本作为监督标签,省略了文本编码。研究表明,该方法在视觉语言任务中表现优异,提供了更高效的分类方式。

视觉-语言预训练的正确分类方法

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-11-05T00:00:00Z

本文提出了一种名为multi-grained vision language pre-training的视觉语言联合预训练方法及其模型X$^2$-VLM,旨在提升视觉语言理解能力。研究表明,现有视觉语言模型在细粒度理解上存在局限,基准测试SPEC揭示了这一问题。通过优化方法,显著改善了模型在细粒度理解上的表现,并展示了良好的可迁移性。

TextHawk2:一种在双语OCR和图像定位中表现优异的大型视觉语言模型,使用的标记数减少16倍

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-10-07T00:00:00Z

本研究提出EMOVA模型,解决大型语言模型在开源社区处理图像、文本和语音的挑战。通过语义-声学解耦的语音标记器,提升视觉语言和语音能力,在基准测试中表现优异,支持情感丰富的全模态对话。

EMOVA: Empowering Language Models for Vivid Emotional Visual, Auditory, and Spoken Communication

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-09-26T00:00:00Z

本研究探讨了视觉与语言的交叉模态关联,发现视觉知识能有效提升语言模型在视觉任务中的表现。通过多模态模型,研究了视觉-语言概念系统及其在视频识别中的应用,并提出了基于知识图谱的视觉语言学习模型,以解决知识缺失问题。

Kiki 的外观是什么?视觉语言模型中语音和视觉形状之间的跨模态关联

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-07-25T00:00:00Z

本文介绍了FashionViL,一个针对时尚领域的视觉语言表征学习框架,采用多视角对比学习和伪属性分类学习等预训练任务,适用于多种视觉语言任务,并在五个下游任务中表现优异。

VIRL:面向少样本制造可行性估计的容量感知表示学习

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-06-18T00:00:00Z

本文介绍了多种图像处理模型,如Learning-to-Compare和DiffMatch,强调它们在图像比较、描述生成和变化检测中的优势。这些模型通过对比学习和自监督学习显著提升了视觉与语言的相关性和模型的稳健性。

比较视觉指导优化

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-06-13T00:00:00Z

本文介绍了多模态大型语言模型(MLLMReID),通过细调和指导学习优化人员再识别任务,实验证明其优越性。研究展示了MLLMs在视觉语言表示学习中的应用,提升了图像文本检索性能,并提出了多种新方法以增强多模态任务效果。

利用 MLLM 的能力进行可迁移的文本到图像人物再识别

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-05-08T00:00:00Z

本文讨论了大规模视觉语言数据集的筛选方法,强调数据集大小与质量的权衡。研究提出了一种新模型,通过隐变量和像素聚类自动生成描述相似图像差异的文本,提升视觉与语言的对齐能力,并介绍了多种数据集和学习范式,以提高图像描述的准确性和语义关联性。

DOCCI:连接和对比图像的描述

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-04-30T00:00:00Z

本文介绍了多种基于视觉语言的预训练模型,如GLIP、BLIP-2和GenDoc。这些模型通过结合图像和语言信息,提升了目标检测、短语定位和文档理解等任务的性能,展现出强大的零样本迁移能力和鲁棒性,实验结果显示在多个视觉语言任务上取得了最先进的效果。

GLID:预训练通用编码 - 解码视觉模型

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-04-11T00:00:00Z
  • <<
  • <
  • 1 (current)
  • 2
  • >
  • >>
👤 个人中心
在公众号发送验证码完成验证
登录验证
在本设备完成一次验证即可继续使用

完成下面两步后,将自动完成登录并继续当前操作。

1 关注公众号
小红花技术领袖公众号二维码
小红花技术领袖
如果当前 App 无法识别二维码,请在微信搜索并关注该公众号
2 发送验证码
在公众号对话中发送下面 4 位验证码
友情链接: MOGE.AI 九胧科技 模力方舟 Gitee AI 菜鸟教程 Remio.AI DeekSeek连连 53AI 神龙海外代理IP IPIPGO全球代理IP 东波哥的博客 匡优考试在线考试系统 开源服务指南 蓝莺IM Solo 独立开发者社区 AI酷站导航 极客Fun 我爱水煮鱼 周报生成器 He3.app 简单简历 白鲸出海 T沙龙 职友集 TechParty 蟒周刊 Best AI Music Generator

小红花技术领袖俱乐部
小红花·文摘:汇聚分发优质内容
小红花技术领袖俱乐部
Copyright © 2021-
粤ICP备2022094092号-1
公众号 小红花技术领袖俱乐部公众号二维码
视频号 小红花技术领袖俱乐部视频号二维码