本文介绍了视觉语言安全理解(VLSU)框架,用于评估多模态模型的安全性。研究表明,现有模型在图像与文本的联合理解方面表现不佳,准确率从90%降至20-55%。此外,模型在拒绝不安全内容与处理边界案例之间难以平衡,导致过度屏蔽或拒绝率下降。VLSU框架揭示了当前模型的不足,为未来研究提供了基础。
本文介绍了视觉语言安全理解(VLSU)框架,旨在系统评估多模态模型的安全性。研究发现,现有模型在处理图像与文本的联合理解时准确率显著下降,从90%降至20-55%。此外,模型在拒绝不安全内容与处理边界案例之间难以取得平衡。VLSU框架通过构建包含8187个样本的基准,揭示了当前模型的不足,并为未来研究提供了重要测试平台。
今天凌晨,Apple 举办了 2025 年 WWDC 全球开发者大会,发布了全新的 26 系列系统,并统一了视觉语言。少数派整理了开幕式的详细回顾和要点,方便用户了解动态。
NORA是一种小型开源视觉语言动作模型,旨在克服现有模型在视觉编码中的局限性。它通过降低计算开销和增强视觉推理,超越了大型视觉语言动作模型,成为实时机器人自主性的有效解决方案。
许多人工智能公司的徽标设计呈现圆形、渐变和中心开口,常被视为类似屁眼。这种趋势源于心理学、模仿和设计委员会的保守选择。尽管有助于建立信任,但也可能限制创新。未来公司应考虑更独特的视觉语言,以避免设计千篇一律。
阿里发布了Qwen2.5-VL-32B-Instruct多模态模型,具备强大的视觉语言和数学推理能力,支持本地部署,已在Hugging Face上开源,用户可直接体验。
本研究提出了一种多频扰动(MFP)方法,旨在解决多模态大语言模型在视觉语言任务中的物体幻觉问题。该方法通过干扰视觉特征表示,显著减少幻觉现象,并在CHAIR基准测试中取得优异成绩。
VLM-R1是一个新开源项目,将DeepSeek的R1方法应用于视觉语言领域,展现出优越的稳定性和泛化能力,提供简便的训练流程,能够准确识别和推理视觉内容,推动多模态AI技术的发展。
谷歌推出了史上最大规模的视觉语言数据集WebLI-100B,包含1000亿图像-文本对,增强了多样性和多语言能力。研究表明,数据规模越大,模型对细节的理解越好,但CLIP模型的过滤可能影响文化多元性。研究团队包括ViT核心作者翟晓华,他将于2024年加入OpenAI。
本研究提出了一种新方法,缩小了无编码视觉语言模型与编码模型之间的性能差距。通过分解和分层关联视觉与语言,EVEv2.0在数据效率和视觉推理能力上表现优越,展现了无编码架构在多模态任务中的潜力。
该研究提出了一种无人机-视觉语言-行动(UAV-VLA)系统,通过结合卫星图像处理和视觉语言模型,提高任务规划效率,减少航迹长度22%和目标定位误差,展示了其在空中作战中的价值。
本研究提出了一种名为SuperClass的简化分类方法,直接使用标记的原始文本作为监督标签,省略了文本编码。研究表明,该方法在视觉语言任务中表现优异,提供了更高效的分类方式。
本文提出了一种名为multi-grained vision language pre-training的视觉语言联合预训练方法及其模型X$^2$-VLM,旨在提升视觉语言理解能力。研究表明,现有视觉语言模型在细粒度理解上存在局限,基准测试SPEC揭示了这一问题。通过优化方法,显著改善了模型在细粒度理解上的表现,并展示了良好的可迁移性。
本研究提出EMOVA模型,解决大型语言模型在开源社区处理图像、文本和语音的挑战。通过语义-声学解耦的语音标记器,提升视觉语言和语音能力,在基准测试中表现优异,支持情感丰富的全模态对话。
本研究探讨了视觉与语言的交叉模态关联,发现视觉知识能有效提升语言模型在视觉任务中的表现。通过多模态模型,研究了视觉-语言概念系统及其在视频识别中的应用,并提出了基于知识图谱的视觉语言学习模型,以解决知识缺失问题。
本文介绍了FashionViL,一个针对时尚领域的视觉语言表征学习框架,采用多视角对比学习和伪属性分类学习等预训练任务,适用于多种视觉语言任务,并在五个下游任务中表现优异。
本文介绍了多种图像处理模型,如Learning-to-Compare和DiffMatch,强调它们在图像比较、描述生成和变化检测中的优势。这些模型通过对比学习和自监督学习显著提升了视觉与语言的相关性和模型的稳健性。
本文介绍了多模态大型语言模型(MLLMReID),通过细调和指导学习优化人员再识别任务,实验证明其优越性。研究展示了MLLMs在视觉语言表示学习中的应用,提升了图像文本检索性能,并提出了多种新方法以增强多模态任务效果。
本文讨论了大规模视觉语言数据集的筛选方法,强调数据集大小与质量的权衡。研究提出了一种新模型,通过隐变量和像素聚类自动生成描述相似图像差异的文本,提升视觉与语言的对齐能力,并介绍了多种数据集和学习范式,以提高图像描述的准确性和语义关联性。
本文介绍了多种基于视觉语言的预训练模型,如GLIP、BLIP-2和GenDoc。这些模型通过结合图像和语言信息,提升了目标检测、短语定位和文档理解等任务的性能,展现出强大的零样本迁移能力和鲁棒性,实验结果显示在多个视觉语言任务上取得了最先进的效果。
完成下面两步后,将自动完成登录并继续当前操作。