小红花·文摘
  • 首页
  • 广场
  • 排行榜🏆
  • 直播
  • FAQ
Dify.AI
Meta AI发布EUPE:一款参数量低于1亿的紧凑型视觉编码器,可同时处理各种视觉任务

Meta公司推出了一种紧凑型视觉编码器EUPE,能够同时处理多种视觉任务。它采用“先扩大规模,再缩小规模”的方法,将多个专家模型的知识整合到一个代理模型中,并提炼出高效的学生模型,从而解决边缘设备计算资源不足的问题。

Meta AI发布EUPE:一款参数量低于1亿的紧凑型视觉编码器,可同时处理各种视觉任务

实时互动网
实时互动网 · 2026-04-08T02:22:37Z
EncQA:基于视觉编码的图表视觉语言模型基准评估

EncQA是一个新基准,旨在评估视觉语言模型在图表理解中的表现。它提供2076对合成问答,涵盖六种视觉编码通道和八种分析任务。研究表明,模型在不同编码和任务间的性能差异显著,单纯增加模型规模并未提升表现,需针对特定视觉推理缺口制定策略。

EncQA:基于视觉编码的图表视觉语言模型基准评估

Apple Machine Learning Research
Apple Machine Learning Research · 2025-10-13T00:00:00Z

机器之心数据服务现已上线,提供高效稳定的数据获取服务,帮助用户轻松获取所需数据。

OpenVision 2:大道至简的生成式预训练视觉编码器

机器之心
机器之心 · 2025-09-15T12:39:42Z
FastVLM:视觉语言模型的高效视觉编码

视觉语言模型(VLMs)结合视觉与文本理解,适用于无障碍助手和机器人等应用。Apple的FastVLM通过高分辨率图像的混合架构显著提升了准确性和效率,解决了二者之间的权衡,适合实时应用。

FastVLM:视觉语言模型的高效视觉编码

Apple Machine Learning Research
Apple Machine Learning Research · 2025-07-23T00:00:00Z
Meta AI 推出感知编码器:一款大规模视觉编码器,在图像和视频的多项视觉任务中表现出色

Meta AI推出的感知编码器(PE)通过单一对比学习目标,构建了一个通用视觉编码器,支持多种视觉任务,如图像和视频分类、检索等,展现出强大的零样本泛化能力,为多模态AI系统奠定了高效基础。

Meta AI 推出感知编码器:一款大规模视觉编码器,在图像和视频的多项视觉任务中表现出色

实时互动网
实时互动网 · 2025-04-22T02:10:36Z
FastVLM:视觉语言模型的高效视觉编码

提升图像分辨率对视觉语言模型(VLM)性能至关重要,但高分辨率下的视觉编码器效率低。FastVLM模型通过优化图像分辨率、延迟和准确性之间的平衡,采用新型混合视觉编码器FastViTHD,显著减少编码时间和视觉标记数量。与之前的方法相比,FastVLM在保持性能的同时,首次标记时间提升了3.2倍,并在高分辨率下表现优异。

FastVLM:视觉语言模型的高效视觉编码

Apple Machine Learning Research
Apple Machine Learning Research · 2025-04-18T00:00:00Z
掌握数据可视化:CBSE 12年级计算机科学的全面指南

数据可视化在数据驱动的时代至关重要,帮助理解复杂信息并有效沟通。CBSE 12年级计算机科学第8章介绍了数据可视化的基本概念和技术,如图表、数据映射、视觉编码和数据转换。这些技能有助于更好地分析和展示数据,支持数据驱动的决策。

掌握数据可视化:CBSE 12年级计算机科学的全面指南

DEV Community
DEV Community · 2025-04-04T09:05:35Z
DeepSeek发布了另一个开源AI模型Janus-Pro

DeepSeek发布了更新版多模态模型Janus-Pro,提升了训练策略、数据规模和模型大小,增强了多模态理解和文本生成图像的能力。该模型分离了视觉编码,解决了稳定性和性能问题,并使用合成美学数据。在多个基准测试中,Janus-Pro表现优于之前的模型,支持384x384图像输入,并已在GitHub上开源。

DeepSeek发布了另一个开源AI模型Janus-Pro

InfoQ
InfoQ · 2025-01-31T10:18:00Z

本研究解决了视觉语言模型中多种视觉编码器的计算成本高的问题,提出了一种新的框架MoVE-KD,通过将多个视觉编码器的独特能力蒸馏成一个高效模型。研究结果表明,该方法有效改善了模型的适应性和效率,具有显著的性能提升。

MoVE-KD:针对视觉语言模型的知识蒸馏与视觉编码器混合

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-01-03T00:00:00Z
Florence-VL来了!使用生成式视觉编码器,重新定义多模态大语言模型视觉信息

AIxiv专栏促进学术交流,Florence-VL模型利用生成式视觉编码器Florence-2,克服传统视觉编码器的局限,提供多层次视觉特征,提升多模态任务的表现。

Florence-VL来了!使用生成式视觉编码器,重新定义多模态大语言模型视觉信息

机器之心
机器之心 · 2024-12-18T05:31:28Z
大型视觉编码器的多模态自回归预训练

AIMv2是一种大型视觉编码器,通过多模态自回归目标进行预训练,解决了视觉编码器与生成任务之间的不匹配。该模型在多模态任务和视觉识别基准上表现优异,训练效率高,所需样本显著少于现有技术。

大型视觉编码器的多模态自回归预训练

Apple Machine Learning Research
Apple Machine Learning Research · 2024-11-21T00:00:00Z

本研究分析了视觉语言模型中的安全对齐不平衡问题,发现早期和中间层对恶意输入脆弱,导致有害输出增加,单层安全策略无法应对多层次挑战。

不公正的对齐:考察视觉语言模型中视觉编码器各层的安全对齐

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-11-06T00:00:00Z

本研究探讨了多模态大型语言模型中不同视觉编码器的有效性,发现CLIP在细粒度任务中表现优异,而DINO经过简单对齐后也展现出良好性能。研究提出的特征融合策略COMM有效结合了CLIP和DINO,显著提升了MLLMs的视觉能力。

预集成提示信息至视觉编码的多模态大语言模型框架

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-10-30T00:00:00Z
DeepSeek新作Janus:解耦视觉编码,引领多模态理解与生成统一新范式

Janus是一种多模态理解与生成模型,通过分离视觉编码器提升灵活性和性能。它使用两个独立的视觉编码器处理理解和生成任务,并通过统一的Transformer进行整合。实验显示,Janus在多模态理解和视觉生成任务上表现优于现有模型,具备更好的指令跟随和多语言生成能力,设计灵活易扩展,适用于更多模态。

DeepSeek新作Janus:解耦视觉编码,引领多模态理解与生成统一新范式

机器之心
机器之心 · 2024-10-22T05:14:51Z

本文介绍了Janus,一个自回归框架,旨在统一多模态理解与生成。Janus通过解耦视觉编码,解决了理解与生成的冲突,提升了模型的灵活性和性能。实验显示,Janus在多模态任务中表现优于传统模型。

Janus:解耦视觉编码以实现统一的多模态理解与生成

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-10-17T00:00:00Z

我们推出了Draw-and-Understand项目中的SPHINX-V,这是一种结合视觉编码器和语言理解的多模态大模型。项目还包括MDVP-Data和MDVP-Bench,用于研究视觉提示。实验表明,SPHINX-V在多模交互、像素级描述和问答能力上有显著提升。

EAGLE:迈向高效任意指称视觉提示理解的多模态大型语言模型

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-09-25T00:00:00Z

本研究解决了现有视觉编码器在图像与文本识别上的局限性,提出了一种名为UNIT的新训练框架,旨在将图像和文本识别整合于单一模型中。通过多尺度输入的统一表示学习和缩放交换数据的微调,UNIT显著提升了文本识别能力,同时保持了图像识别的核心性能,展示了其在文档相关任务中的优越表现。

UNIT:将图像与文本识别统一于一个视觉编码器

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-09-06T00:00:00Z

本文回顾了最近的面向视觉的多模态大型语言模型的体系结构、对齐策略和训练技术,并分析了其在多个任务上的应用。同时,还比较了不同模型的性能和计算要求。这项调查为未来的多模态大型语言模型的发展奠定了基础。

MaVEn:一种有效的多粒度混合视觉编码框架用于多模态大语言模型

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-08-22T00:00:00Z

研究者通过评估不同视觉编码器在视觉语言模型任务中的性能,发现没有一种单一的编码配置能在不同任务中始终达到最佳性能。因此,他们提出了一种名为BRAVE的方法,将多个冻结的编码器的特征整合成更多变的表示,并直接作为冻结的语言模型的输入。BRAVE在字幕生成和视觉问答基准上实现了最先进的性能,并减轻了VLM的问题。该方法需要更少的可训练参数并具有更紧凑的表示。研究结果显示,将不同的视觉偏差纳入VLM可以获得更广泛和上下文化的视觉理解。

缺失视觉编码器:视觉语言模型的高效稳健调整

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-07-23T00:00:00Z

研究人员提出了一种新的预训练方法RAD-DINO,通过单模态医学图像数据进行预训练,取得了比基于生物医学语言的监督模型更好的性能。

以一般视觉编码器特征为导向的医学图像配准

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-07-18T00:00:00Z
  • <<
  • <
  • 1 (current)
  • 2
  • >
  • >>
👤 个人中心
在公众号发送验证码完成验证
登录验证
在本设备完成一次验证即可继续使用

完成下面两步后,将自动完成登录并继续当前操作。

1 关注公众号
小红花技术领袖公众号二维码
小红花技术领袖
如果当前 App 无法识别二维码,请在微信搜索并关注该公众号
2 发送验证码
在公众号对话中发送下面 4 位验证码
友情链接: MOGE.AI 九胧科技 模力方舟 Gitee AI 菜鸟教程 Remio.AI DeekSeek连连 53AI 神龙海外代理IP IPIPGO全球代理IP 东波哥的博客 匡优考试在线考试系统 开源服务指南 蓝莺IM Solo 独立开发者社区 AI酷站导航 极客Fun 我爱水煮鱼 周报生成器 He3.app 简单简历 白鲸出海 T沙龙 职友集 TechParty 蟒周刊 Best AI Music Generator

小红花技术领袖俱乐部
小红花·文摘:汇聚分发优质内容
小红花技术领袖俱乐部
Copyright © 2021-
粤ICP备2022094092号-1
公众号 小红花技术领袖俱乐部公众号二维码
视频号 小红花技术领袖俱乐部视频号二维码