小红花·文摘
  • 首页
  • 广场
  • 排行榜🏆
  • 直播
  • FAQ
Dify.AI
VLSU:绘制人工智能安全的多模态联合理解的界限

本文介绍了视觉语言安全理解(VLSU)框架,用于评估多模态模型的安全性。研究表明,现有模型在图像与文本的联合理解方面表现不佳,准确率从90%降至20-55%。此外,模型在拒绝不安全内容与处理边界案例之间难以平衡,导致过度屏蔽或拒绝率下降。VLSU框架揭示了当前模型的不足,为未来研究提供了基础。

VLSU:绘制人工智能安全的多模态联合理解的界限

Apple Machine Learning Research
Apple Machine Learning Research · 2026-01-27T00:00:00Z
视觉语言安全理解(VLSU):联合多模态理解的局限性映射

本文介绍了视觉语言安全理解(VLSU)框架,旨在系统评估多模态模型的安全性。研究发现,现有模型在处理图像与文本的联合理解时准确率显著下降,从90%降至20-55%。此外,模型在拒绝不安全内容与处理边界案例之间难以取得平衡。VLSU框架通过构建包含8187个样本的基准,揭示了当前模型的不足,并为未来研究提供了重要测试平台。

视觉语言安全理解(VLSU):联合多模态理解的局限性映射

Apple Machine Learning Research
Apple Machine Learning Research · 2025-11-20T00:00:00Z

今天凌晨,Apple 举办了 2025 年 WWDC 全球开发者大会,发布了全新的 26 系列系统,并统一了视觉语言。少数派整理了开幕式的详细回顾和要点,方便用户了解动态。

一图流 | WWDC25 开幕式回顾

少数派
少数派 · 2025-06-09T22:41:17Z

NORA是一种小型开源视觉语言动作模型,旨在克服现有模型在视觉编码中的局限性。它通过降低计算开销和增强视觉推理,超越了大型视觉语言动作模型,成为实时机器人自主性的有效解决方案。

NORA: A Small Open-Sourced Generalist Vision Language Action Model for Embodied Tasks

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-04-28T00:00:00Z

许多人工智能公司的徽标设计呈现圆形、渐变和中心开口,常被视为类似屁眼。这种趋势源于心理学、模仿和设计委员会的保守选择。尽管有助于建立信任,但也可能限制创新。未来公司应考虑更独特的视觉语言,以避免设计千篇一律。

为什么人工智能公司的标志看起来像屁眼?

程序师
程序师 · 2025-04-15T02:38:57Z

阿里发布了Qwen2.5-VL-32B-Instruct多模态模型,具备强大的视觉语言和数学推理能力,支持本地部署,已在Hugging Face上开源,用户可直接体验。

32B本地部署!阿里开源最新多模态模型:主打视觉语言,数学推理也很强

量子位
量子位 · 2025-03-25T01:18:46Z

本研究提出了一种多频扰动(MFP)方法,旨在解决多模态大语言模型在视觉语言任务中的物体幻觉问题。该方法通过干扰视觉特征表示,显著减少幻觉现象,并在CHAIR基准测试中取得优异成绩。

Mitigating Object Hallucination in Multimodal Large Language Models through Multi-Frequency Perturbation

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-03-19T00:00:00Z
重磅发现!DeepSeek R1方法成功迁移到视觉领域,多模态AI迎来新突破!

VLM-R1是一个新开源项目,将DeepSeek的R1方法应用于视觉语言领域,展现出优越的稳定性和泛化能力,提供简便的训练流程,能够准确识别和推理视觉内容,推动多模态AI技术的发展。

重磅发现!DeepSeek R1方法成功迁移到视觉领域,多模态AI迎来新突破!

机器之心
机器之心 · 2025-02-20T07:22:43Z

谷歌推出了史上最大规模的视觉语言数据集WebLI-100B,包含1000亿图像-文本对,增强了多样性和多语言能力。研究表明,数据规模越大,模型对细节的理解越好,但CLIP模型的过滤可能影响文化多元性。研究团队包括ViT核心作者翟晓华,他将于2024年加入OpenAI。

谷歌全网扒1000亿图像文本对,ViT大佬坐镇:数据Scaling潜力依旧

量子位
量子位 · 2025-02-13T09:13:47Z

本研究提出了一种新方法,缩小了无编码视觉语言模型与编码模型之间的性能差距。通过分解和分层关联视觉与语言,EVEv2.0在数据效率和视觉推理能力上表现优越,展现了无编码架构在多模态任务中的潜力。

EVEv2:改进的无编码视觉语言模型基线

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-02-10T00:00:00Z

该研究提出了一种无人机-视觉语言-行动(UAV-VLA)系统,通过结合卫星图像处理和视觉语言模型,提高任务规划效率,减少航迹长度22%和目标定位误差,展示了其在空中作战中的价值。

UAV-Visual Language-Action System: Large-Scale Aerial Mission Generation

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-01-09T00:00:00Z

本研究提出了ArtELingo-28基准,涵盖28种语言和约20万个注释,旨在解决视觉和语言基准在多语言和多文化视角上的不足,强调文化多样性对情感注释的影响。

无文化被遗忘:ArtELingo-28,一项涵盖28种语言的WikiArt基准测试

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-11-06T00:00:00Z

本研究提出了一种名为SuperClass的简化分类方法,直接使用标记的原始文本作为监督标签,省略了文本编码。研究表明,该方法在视觉语言任务中表现优异,提供了更高效的分类方式。

视觉-语言预训练的正确分类方法

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-11-05T00:00:00Z

本研究提出了REM框架,通过视频扩散模型学习视觉语言表示,以解决视频中的概念分割不足问题。实验结果表明,REM在特定领域表现优异,并在非特定领域提高了区域相似度,展示了预训练的强大能力。

全面参照:迈向我们在视频中能描述的所有事物的分割

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-10-30T00:00:00Z

最近,多模态大型语言模型在图像感知和指令执行上表现出色。研究表明,预训练的视觉语言模型能有效连接视觉与语言。基于此,提出了 Muffin 框架,利用预训练模型提供视觉信号,并推出 UniMM-Chat 数据集,生成了 110万条多模态指令。实验结果显示,Muffin 在视觉语言任务中表现优异,超越现有模型。

个性化视觉指令调优

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-10-09T00:00:00Z

本研究提出EMOVA模型,解决大型语言模型在开源社区处理图像、文本和语音的挑战。通过语义-声学解耦的语音标记器,提升视觉语言和语音能力,在基准测试中表现优异,支持情感丰富的全模态对话。

EMOVA: Empowering Language Models for Vivid Emotional Visual, Auditory, and Spoken Communication

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-09-26T00:00:00Z

CogVLM是一种开源的视觉语言基础模型,通过视觉专家模块实现了视觉语言特征的深度融合,性能在多个基准测试中达到最先进水平。

HPE-CogVLM:基于视觉语言模型的新头部姿势定位任务探索

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-06-04T00:00:00Z
莫娜·查拉比谈叙事、数据的力量及报道巴勒斯坦

获奖艺术家和记者莫娜·查拉比讨论了她在巴勒斯坦方面的工作以及在社交媒体上发布相关内容时面临的挑战。她强调了准确性的重要性以及为对话增添新元素的必要性。查拉比还谈到了她的构思过程以及在作品中表达规模和重要性的需求。她谈到了在处理敏感话题时找到合适的视觉语言的困难以及不要将每个人的经历简化的重要性。查拉比反思了她的作品在能见度增加和审查方面的影响。她澄清了她对巴勒斯坦的关注并不是基于身份政治,而是出于对边缘化的关注。

莫娜·查拉比谈叙事、数据的力量及报道巴勒斯坦

The Verge
The Verge · 2024-03-11T14:30:00Z

这篇论文总结了大型语言模型(LLMs)不同子类的最新发展,包括金融、多语言、生物医学和临床、视觉语言和代码语言模型。它还强调了聊天机器人和虚拟助手开发领域中的未解决问题,为对该技术感兴趣的读者、开发者、学者和用户提供有用的信息和未来方向。

教育领域中的大型语言模型:愿景和机遇

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2023-11-22T00:00:00Z

这篇论文总结了大型语言模型(LLMs)的最新发展,包括金融、多语言、生物医学和临床、视觉语言和代码语言模型。它还强调了聊天机器人和虚拟助手开发中的未解决问题,如增强自然语言处理、提升聊天机器人智能性以及解决道德和法律困境。

在 LLM 时代重新思考移动 AI 生态系统

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2023-08-28T00:00:00Z
  • <<
  • <
  • 1 (current)
  • >
  • >>
👤 个人中心
在公众号发送验证码完成验证
登录验证
在本设备完成一次验证即可继续使用

完成下面两步后,将自动完成登录并继续当前操作。

1 关注公众号
小红花技术领袖公众号二维码
小红花技术领袖
如果当前 App 无法识别二维码,请在微信搜索并关注该公众号
2 发送验证码
在公众号对话中发送下面 4 位验证码
友情链接: MOGE.AI 九胧科技 模力方舟 Gitee AI 菜鸟教程 Remio.AI DeekSeek连连 53AI 神龙海外代理IP IPIPGO全球代理IP 东波哥的博客 匡优考试在线考试系统 开源服务指南 蓝莺IM Solo 独立开发者社区 AI酷站导航 极客Fun 我爱水煮鱼 周报生成器 He3.app 简单简历 白鲸出海 T沙龙 职友集 TechParty 蟒周刊 Best AI Music Generator

小红花技术领袖俱乐部
小红花·文摘:汇聚分发优质内容
小红花技术领袖俱乐部
Copyright © 2021-
粤ICP备2022094092号-1
公众号 小红花技术领袖俱乐部公众号二维码
视频号 小红花技术领袖俱乐部视频号二维码