小红花·文摘
  • 首页
  • 广场
  • 排行榜🏆
  • 直播
  • FAQ
Dify.AI
Meta AI发布EUPE:一款参数量低于1亿的紧凑型视觉编码器,可同时处理各种视觉任务

Meta公司推出了一种紧凑型视觉编码器EUPE,能够同时处理多种视觉任务。它采用“先扩大规模,再缩小规模”的方法,将多个专家模型的知识整合到一个代理模型中,并提炼出高效的学生模型,从而解决边缘设备计算资源不足的问题。

Meta AI发布EUPE:一款参数量低于1亿的紧凑型视觉编码器,可同时处理各种视觉任务

实时互动网
实时互动网 · 2026-04-08T02:22:37Z
EncQA:基于视觉编码的图表视觉语言模型基准评估

EncQA是一个新基准,旨在评估视觉语言模型在图表理解中的表现。它提供2076对合成问答,涵盖六种视觉编码通道和八种分析任务。研究表明,模型在不同编码和任务间的性能差异显著,单纯增加模型规模并未提升表现,需针对特定视觉推理缺口制定策略。

EncQA:基于视觉编码的图表视觉语言模型基准评估

Apple Machine Learning Research
Apple Machine Learning Research · 2025-10-13T00:00:00Z

机器之心数据服务现已上线,提供高效稳定的数据获取服务,帮助用户轻松获取所需数据。

OpenVision 2:大道至简的生成式预训练视觉编码器

机器之心
机器之心 · 2025-09-15T12:39:42Z
FastVLM:视觉语言模型的高效视觉编码

视觉语言模型(VLMs)结合视觉与文本理解,适用于无障碍助手和机器人等应用。Apple的FastVLM通过高分辨率图像的混合架构显著提升了准确性和效率,解决了二者之间的权衡,适合实时应用。

FastVLM:视觉语言模型的高效视觉编码

Apple Machine Learning Research
Apple Machine Learning Research · 2025-07-23T00:00:00Z
Meta AI 推出感知编码器:一款大规模视觉编码器,在图像和视频的多项视觉任务中表现出色

Meta AI推出的感知编码器(PE)通过单一对比学习目标,构建了一个通用视觉编码器,支持多种视觉任务,如图像和视频分类、检索等,展现出强大的零样本泛化能力,为多模态AI系统奠定了高效基础。

Meta AI 推出感知编码器:一款大规模视觉编码器,在图像和视频的多项视觉任务中表现出色

实时互动网
实时互动网 · 2025-04-22T02:10:36Z
FastVLM:视觉语言模型的高效视觉编码

提升图像分辨率对视觉语言模型(VLM)性能至关重要,但高分辨率下的视觉编码器效率低。FastVLM模型通过优化图像分辨率、延迟和准确性之间的平衡,采用新型混合视觉编码器FastViTHD,显著减少编码时间和视觉标记数量。与之前的方法相比,FastVLM在保持性能的同时,首次标记时间提升了3.2倍,并在高分辨率下表现优异。

FastVLM:视觉语言模型的高效视觉编码

Apple Machine Learning Research
Apple Machine Learning Research · 2025-04-18T00:00:00Z
掌握数据可视化:CBSE 12年级计算机科学的全面指南

数据可视化在数据驱动的时代至关重要,帮助理解复杂信息并有效沟通。CBSE 12年级计算机科学第8章介绍了数据可视化的基本概念和技术,如图表、数据映射、视觉编码和数据转换。这些技能有助于更好地分析和展示数据,支持数据驱动的决策。

掌握数据可视化:CBSE 12年级计算机科学的全面指南

DEV Community
DEV Community · 2025-04-04T09:05:35Z
DeepSeek发布了另一个开源AI模型Janus-Pro

DeepSeek发布了更新版多模态模型Janus-Pro,提升了训练策略、数据规模和模型大小,增强了多模态理解和文本生成图像的能力。该模型分离了视觉编码,解决了稳定性和性能问题,并使用合成美学数据。在多个基准测试中,Janus-Pro表现优于之前的模型,支持384x384图像输入,并已在GitHub上开源。

DeepSeek发布了另一个开源AI模型Janus-Pro

InfoQ
InfoQ · 2025-01-31T10:18:00Z

本研究解决了视觉语言模型中多种视觉编码器的计算成本高的问题,提出了一种新的框架MoVE-KD,通过将多个视觉编码器的独特能力蒸馏成一个高效模型。研究结果表明,该方法有效改善了模型的适应性和效率,具有显著的性能提升。

MoVE-KD:针对视觉语言模型的知识蒸馏与视觉编码器混合

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-01-03T00:00:00Z
Florence-VL来了!使用生成式视觉编码器,重新定义多模态大语言模型视觉信息

AIxiv专栏促进学术交流,Florence-VL模型利用生成式视觉编码器Florence-2,克服传统视觉编码器的局限,提供多层次视觉特征,提升多模态任务的表现。

Florence-VL来了!使用生成式视觉编码器,重新定义多模态大语言模型视觉信息

机器之心
机器之心 · 2024-12-18T05:31:28Z
大型视觉编码器的多模态自回归预训练

AIMv2是一种大型视觉编码器,通过多模态自回归目标进行预训练,解决了视觉编码器与生成任务之间的不匹配。该模型在多模态任务和视觉识别基准上表现优异,训练效率高,所需样本显著少于现有技术。

大型视觉编码器的多模态自回归预训练

Apple Machine Learning Research
Apple Machine Learning Research · 2024-11-21T00:00:00Z

该研究提出了MMICL模型,旨在解决图像与文本的多模态提示问题,提升视觉-语言模型的性能。通过结合CLIP和DINO的特征,提出了COMM策略,增强了模型的视觉能力。实验结果表明,MMICL在复杂推理任务中表现优异,有效缓解了语言偏差问题,展现了在多模态基准测试中的竞争力。

预集成提示信息至视觉编码的多模态大语言模型框架

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-10-30T00:00:00Z
DeepSeek新作Janus:解耦视觉编码,引领多模态理解与生成统一新范式

Janus是一种多模态理解与生成模型,通过分离视觉编码器提升灵活性和性能。它使用两个独立的视觉编码器处理理解和生成任务,并通过统一的Transformer进行整合。实验显示,Janus在多模态理解和视觉生成任务上表现优于现有模型,具备更好的指令跟随和多语言生成能力,设计灵活易扩展,适用于更多模态。

DeepSeek新作Janus:解耦视觉编码,引领多模态理解与生成统一新范式

机器之心
机器之心 · 2024-10-22T05:14:51Z

本文探讨了多模态transformer模型在语言和视觉任务中的应用,重点研究了零样本图像检索的影响因素。提出了i-Code V2和Emu2等模型,展示了多模态预训练的强大性能。instruct-imagen模型通过多模态指导实现图像生成,Anole展示了高效的图像-文本生成能力。最后,Show-o模型结合自回归和离散扩散建模,展现了在多模态理解与生成任务中的潜力。

Janus:解耦视觉编码以实现统一的多模态理解与生成

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-10-17T00:00:00Z

本文总结了低成本稳定的2.5/3D视觉感知器件在室内环境视觉场景理解中的应用,探讨了数据表示、核心技术和性能评价。研究提出了基于场景图的三维语义理解、语义视图综合和视觉转换器等多种方法,以提高场景理解的准确性和多样性,并分析了不同视觉编码模型的优缺点,强调了未来选择编码器的灵活性。

向虚拟场景表征的过渡

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-10-10T00:00:00Z

本研究解决了现有视觉编码器在图像与文本识别上的局限性,提出了一种名为UNIT的新训练框架,旨在将图像和文本识别整合于单一模型中。通过多尺度输入的统一表示学习和缩放交换数据的微调,UNIT显著提升了文本识别能力,同时保持了图像识别的核心性能,展示了其在文档相关任务中的优越表现。

UNIT:将图像与文本识别统一于一个视觉编码器

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-09-06T00:00:00Z

多模态大型语言模型(MLLMs)通过整合视觉知识和专家混合机制,提升了视觉感知能力。本文回顾了MLLMs的架构、对齐策略和训练技术,分析了其在视觉理解和图像生成等任务中的表现,并比较了现有模型的性能和计算要求。研究表明,多种数据的预训练对实现最新成果至关重要。

MaVEn:一种有效的多粒度混合视觉编码框架用于多模态大语言模型

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-08-22T00:00:00Z

本文研究了视觉语言模型(VLM)的视觉编码能力,提出了BRAVE方法,通过整合多个编码器特征,提升了字幕生成和视觉问答的性能。研究还探讨了无监督微调和多模任务的适应方法,表明结合多种视觉偏差能显著改善VLM的表现。

缺失视觉编码器:视觉语言模型的高效稳健调整

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-07-23T00:00:00Z

本文介绍了一种新的医学图像配准方法DINO-Reg,该方法利用训练免费的图像编码器,首次将通用视觉模型应用于医学图像配准,显著提升了注册的准确性和适应性。提出的RAD-DINO编码器在多项基准测试中优于传统模型,展示了深度学习在医学图像处理中的潜力。

以一般视觉编码器特征为导向的医学图像配准

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-07-18T00:00:00Z
抛弃视觉编码器,这个「原生版」多模态大模型也能媲美主流方法

智源研究院与大连理工大学、北京大学等合作推出了新一代无编码器的视觉语言模型EVE。EVE通过去除视觉编码器,能处理任意图像长宽比,并通过精细化的训练策略和额外的视觉监督,在多个视觉-语言基准测试中表现出色,与基于编码器的主流多模态方法相媲美。EVE的提出为纯解码器的原生多模态架构发展提供了一条透明且高效的路径。

抛弃视觉编码器,这个「原生版」多模态大模型也能媲美主流方法

机器之心
机器之心 · 2024-07-16T07:00:49Z
  • <<
  • <
  • 1 (current)
  • 2
  • >
  • >>
👤 个人中心
在公众号发送验证码完成验证
登录验证
在本设备完成一次验证即可继续使用

完成下面两步后,将自动完成登录并继续当前操作。

1 关注公众号
小红花技术领袖公众号二维码
小红花技术领袖
如果当前 App 无法识别二维码,请在微信搜索并关注该公众号
2 发送验证码
在公众号对话中发送下面 4 位验证码
友情链接: MOGE.AI 九胧科技 模力方舟 Gitee AI 菜鸟教程 Remio.AI DeekSeek连连 53AI 神龙海外代理IP IPIPGO全球代理IP 东波哥的博客 匡优考试在线考试系统 开源服务指南 蓝莺IM Solo 独立开发者社区 AI酷站导航 极客Fun 我爱水煮鱼 周报生成器 He3.app 简单简历 白鲸出海 T沙龙 职友集 TechParty 蟒周刊 Best AI Music Generator

小红花技术领袖俱乐部
小红花·文摘:汇聚分发优质内容
小红花技术领袖俱乐部
Copyright © 2021-
粤ICP备2022094092号-1
公众号 小红花技术领袖俱乐部公众号二维码
视频号 小红花技术领袖俱乐部视频号二维码