小红花·文摘
  • 首页
  • 广场
  • 排行榜🏆
  • 直播
  • FAQ
Dify.AI
Meta AI发布EUPE:一款参数量低于1亿的紧凑型视觉编码器,可同时处理各种视觉任务

Meta公司推出了一种紧凑型视觉编码器EUPE,能够同时处理多种视觉任务。它采用“先扩大规模,再缩小规模”的方法,将多个专家模型的知识整合到一个代理模型中,并提炼出高效的学生模型,从而解决边缘设备计算资源不足的问题。

Meta AI发布EUPE:一款参数量低于1亿的紧凑型视觉编码器,可同时处理各种视觉任务

实时互动网
实时互动网 · 2026-04-08T02:22:37Z
可扩展多模态模型服务的编码器解耦

现代大型多模态模型(LMM)在服务时效率低下,因视觉编码器与文本生成阶段共享资源。通过将视觉编码器独立服务化,可以实现流水线执行,消除干扰,提高吞吐量并降低延迟,从而优化资源分配和提升多模态请求处理效率。

可扩展多模态模型服务的编码器解耦

vLLM Blog
vLLM Blog · 2025-12-15T00:00:00Z
一文速览Eagle、Eagle 2、Eagle 2.5——英伟达开源的VLM:用于人形VLA GR00T N1和N1.5中

本文介绍了Eagle 2的设计与训练方法,强调数据的多样性和质量。Eagle 2结合视觉编码器与大语言模型,通过动态拼接和多阶段训练策略提升视觉-语言模型性能。

一文速览Eagle、Eagle 2、Eagle 2.5——英伟达开源的VLM:用于人形VLA GR00T N1和N1.5中

结构之法 算法之道
结构之法 算法之道 · 2025-10-06T05:52:04Z
Llama.cpp 和 GGUF 中的多模态嵌入

jina-embeddings-v4推出了先进的多模态嵌入,支持文本、图像和复杂文档的向量搜索。通过修改llama.cpp,实现了多模态嵌入的生成,解决了图像处理和注意力机制的问题。调试后,llama.cpp模型的嵌入结果与参考模型相近,未来可优化视觉编码器和支持多向量嵌入。

Llama.cpp 和 GGUF 中的多模态嵌入

Jina AI
Jina AI · 2025-09-09T23:33:16Z
对比定位语言-图像预训练

CLIP方法用于训练视觉编码器生成图像和文本表示,但在细粒度视觉表示上有不足。本文提出CLOC方法,通过区域-文本对比损失提升CLIP的定位能力。CLOC引入可提示嵌入,设计视觉丰富的标注框架,生成大规模区域-文本伪标签,增强MLLMs在指代和定位任务中的表现。

对比定位语言-图像预训练

Apple Machine Learning Research
Apple Machine Learning Research · 2025-06-30T00:00:00Z

字节推出的Seed1.5-VL多模态推理模型在60项基准测试中获得38项第一,表现优异。该模型结合532M视觉编码器和200亿参数,擅长复杂推理、OCR和图像理解。通过创新的训练方法和架构设计,模型在多模态数据处理上表现突出,但仍存在局限性。

拿下38项第一!字节发布Seed1.5-VL多模态推理模型

量子位
量子位 · 2025-05-14T06:20:16Z

本研究提出了ResNetVLLM框架,结合ResNet视觉编码器与大型语言模型,旨在解决零-shot视频理解问题。该模型在多个基准测试中表现优异,能够生成准确的上下文相关文本描述。

ResNetVLLM - 用于视频理解任务的多模态视觉大语言模型

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-04-20T00:00:00Z
FastVLM:视觉语言模型的高效视觉编码

提升图像分辨率对视觉语言模型(VLM)性能至关重要,但高分辨率下的视觉编码器效率低。FastVLM模型通过优化图像分辨率、延迟和准确性之间的平衡,采用新型混合视觉编码器FastViTHD,显著减少编码时间和视觉标记数量。与之前的方法相比,FastVLM在保持性能的同时,首次标记时间提升了3.2倍,并在高分辨率下表现优异。

FastVLM:视觉语言模型的高效视觉编码

Apple Machine Learning Research
Apple Machine Learning Research · 2025-04-18T00:00:00Z

本研究提出了一种名为“消失深度”的自监督训练方法,旨在解决视觉编码器在广义度量深度理解方面的不足。通过新颖的位置信息深度编码技术,该方法显著提升了多个RGBD下游任务的性能,且无需微调编码器。

Vanishing Depth: A Depth Adapter with Positional Depth Encoding for Generalized Image Encoders

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-03-25T00:00:00Z

Gaze-LLE是一个基于变换器的注视目标估计模型,利用预训练的视觉基础模型,在冻结的视觉编码器上学习轻量级解码器,显著减少参数量,无需额外输入如深度和姿态。该模型通过ONNX实现,支持人脸检测和注视预测。

C# OnnxRuntime Gaze-LLE 注视目标估计

dotNET跨平台
dotNET跨平台 · 2024-12-20T00:03:33Z
Florence-VL来了!使用生成式视觉编码器,重新定义多模态大语言模型视觉信息

AIxiv专栏促进学术交流,Florence-VL模型利用生成式视觉编码器Florence-2,克服传统视觉编码器的局限,提供多层次视觉特征,提升多模态任务的表现。

Florence-VL来了!使用生成式视觉编码器,重新定义多模态大语言模型视觉信息

机器之心
机器之心 · 2024-12-18T05:31:28Z

该研究提出了一种索引反向传播量化(IBQ)方法,解决了现有向量量化在可扩展性方面的不足,并优化了代码本与视觉编码器的联合训练。实验结果表明,IBQ在视觉生成任务中表现优异。

驯服可扩展的视觉标记器用于自回归图像生成

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-12-03T00:00:00Z
大型视觉编码器的多模态自回归预训练

AIMv2是一种大型视觉编码器,通过多模态自回归目标进行预训练,解决了视觉编码器与生成任务之间的不匹配。该模型在多模态任务和视觉识别基准上表现优异,训练效率高,所需样本显著少于现有技术。

大型视觉编码器的多模态自回归预训练

Apple Machine Learning Research
Apple Machine Learning Research · 2024-11-21T00:00:00Z

本文介绍了多模态大型语言模型LLaVA的优化研究,提出了区域级视觉编码器和MixLoRA等新方法,显著提升了模型在多样化任务中的性能。同时,研究探讨了基于语言的指令调优方法,改善了模型在零样本任务中的泛化能力,尤其在语言数据集上表现优异。

视觉线索增强与双低秩自适应在高效视觉指令微调中的应用

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-11-19T00:00:00Z

本研究提出LHRS-Bot-Nova,一种改进的多模态大语言模型,专注于遥感图像理解。该模型通过增强视觉编码器和新桥接层,优化视觉压缩和语言视觉对齐,显著提升遥感任务的效率和精确性。

LHRS-Bot-Nova: An Improved Multimodal Large Language Model for Remote Sensing Vision-Language Interpretation

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-11-14T00:00:00Z

该论文提出了一种多模态条件适应(MMCA)方法,旨在改进视觉引导模型的特征提取。通过动态更新视觉编码器的权重,MMCA能够更有效地处理与文本相关的区域。实验结果表明,该方法在多个数据集上显著提升了性能,且成本较低。

MMCA:多模态动态权重更新,视觉定位新SOTA | ACM MM'24 Oral - 晓飞的算法工程笔记

晓飞的算法工程笔记
晓飞的算法工程笔记 · 2024-11-04T01:43:00Z
DeepSeek新作Janus:解耦视觉编码,引领多模态理解与生成统一新范式

Janus是一种多模态理解与生成模型,通过分离视觉编码器提升灵活性和性能。它使用两个独立的视觉编码器处理理解和生成任务,并通过统一的Transformer进行整合。实验显示,Janus在多模态理解和视觉生成任务上表现优于现有模型,具备更好的指令跟随和多语言生成能力,设计灵活易扩展,适用于更多模态。

DeepSeek新作Janus:解耦视觉编码,引领多模态理解与生成统一新范式

机器之心
机器之心 · 2024-10-22T05:14:51Z

OtterHD-8B是一种高分辨率图像处理的多模态模型,表现优于其他模型。研究表明,视觉编码器的预训练分辨率对模型效果有显著影响。新框架PerceptionGPT通过LLMs的token嵌入提升视觉感知能力,同时减少训练参数和时间。InfiMM-HD和VRWKV等新架构提高了视觉感知能力并降低计算成本。DC$^2$框架在4K和8K图像上显著提升了准确率。Qwen2-VL系列引入动态分辨率机制,优化视觉表示。

VisualRWKV-HD 和 UHD:推动视觉语言模型的高分辨率处理

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-10-15T00:00:00Z

本文探讨了多模态大型语言模型(MLLMs)的发展,提出通过引入视觉编码器和改进训练策略来提升视觉感知能力。研究表明,数据质量和任务多样性对模型性能至关重要,强调了在视觉-语言任务中优化训练效率的重要性。

单一内部视觉模型:推动内生视觉预训练的单一多模态大型语言模型的边界

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-10-10T00:00:00Z
长短大小样样精通!原始分辨率、超长视频输入:更灵活的全开源多模态架构Oryx

清华大学、腾讯和南洋理工大学的研究者推出了多模态模型Oryx,能够处理图像、视频和3D场景。Oryx的创新包括预训练的视觉编码器和动态压缩模块,支持不同分辨率和长度的输入。它在多模态融合上表现优异,尤其在视频、图像和3D理解任务中表现突出。通过优化分辨率和压缩策略,Oryx提高了效率和精度。

长短大小样样精通!原始分辨率、超长视频输入:更灵活的全开源多模态架构Oryx

机器之心
机器之心 · 2024-09-28T05:59:31Z
  • <<
  • <
  • 1 (current)
  • 2
  • >
  • >>
👤 个人中心
在公众号发送验证码完成验证
登录验证
在本设备完成一次验证即可继续使用

完成下面两步后,将自动完成登录并继续当前操作。

1 关注公众号
小红花技术领袖公众号二维码
小红花技术领袖
如果当前 App 无法识别二维码,请在微信搜索并关注该公众号
2 发送验证码
在公众号对话中发送下面 4 位验证码
小红花技术领袖俱乐部
小红花·文摘:汇聚分发优质内容
小红花技术领袖俱乐部
Copyright © 2021-
粤ICP备2022094092号-1
公众号 小红花技术领袖俱乐部公众号二维码
视频号 小红花技术领袖俱乐部视频号二维码