小红花·文摘
  • 首页
  • 广场
  • 排行榜🏆
  • 直播
  • FAQ
Dify.AI
Meta AI发布EUPE:一款参数量低于1亿的紧凑型视觉编码器,可同时处理各种视觉任务

Meta公司推出了一种紧凑型视觉编码器EUPE,能够同时处理多种视觉任务。它采用“先扩大规模,再缩小规模”的方法,将多个专家模型的知识整合到一个代理模型中,并提炼出高效的学生模型,从而解决边缘设备计算资源不足的问题。

Meta AI发布EUPE:一款参数量低于1亿的紧凑型视觉编码器,可同时处理各种视觉任务

实时互动网
实时互动网 · 2026-04-08T02:22:37Z
可扩展多模态模型服务的编码器解耦

现代大型多模态模型(LMM)在服务时效率低下,因视觉编码器与文本生成阶段共享资源。通过将视觉编码器独立服务化,可以实现流水线执行,消除干扰,提高吞吐量并降低延迟,从而优化资源分配和提升多模态请求处理效率。

可扩展多模态模型服务的编码器解耦

vLLM Blog
vLLM Blog · 2025-12-15T00:00:00Z
一文速览Eagle、Eagle 2、Eagle 2.5——英伟达开源的VLM:用于人形VLA GR00T N1和N1.5中

本文介绍了Eagle 2的设计与训练方法,强调数据的多样性和质量。Eagle 2结合视觉编码器与大语言模型,通过动态拼接和多阶段训练策略提升视觉-语言模型性能。

一文速览Eagle、Eagle 2、Eagle 2.5——英伟达开源的VLM:用于人形VLA GR00T N1和N1.5中

结构之法 算法之道
结构之法 算法之道 · 2025-10-06T05:52:04Z
Llama.cpp 和 GGUF 中的多模态嵌入

jina-embeddings-v4推出了先进的多模态嵌入,支持文本、图像和复杂文档的向量搜索。通过修改llama.cpp,实现了多模态嵌入的生成,解决了图像处理和注意力机制的问题。调试后,llama.cpp模型的嵌入结果与参考模型相近,未来可优化视觉编码器和支持多向量嵌入。

Llama.cpp 和 GGUF 中的多模态嵌入

Jina AI
Jina AI · 2025-09-09T23:33:16Z
对比定位语言-图像预训练

CLIP方法用于训练视觉编码器生成图像和文本表示,但在细粒度视觉表示上有不足。本文提出CLOC方法,通过区域-文本对比损失提升CLIP的定位能力。CLOC引入可提示嵌入,设计视觉丰富的标注框架,生成大规模区域-文本伪标签,增强MLLMs在指代和定位任务中的表现。

对比定位语言-图像预训练

Apple Machine Learning Research
Apple Machine Learning Research · 2025-06-30T00:00:00Z

字节推出的Seed1.5-VL多模态推理模型在60项基准测试中获得38项第一,表现优异。该模型结合532M视觉编码器和200亿参数,擅长复杂推理、OCR和图像理解。通过创新的训练方法和架构设计,模型在多模态数据处理上表现突出,但仍存在局限性。

拿下38项第一!字节发布Seed1.5-VL多模态推理模型

量子位
量子位 · 2025-05-14T06:20:16Z

本研究提出了ResNetVLLM框架,结合ResNet视觉编码器与大型语言模型,旨在解决零-shot视频理解问题。该模型在多个基准测试中表现优异,能够生成准确的上下文相关文本描述。

ResNetVLLM - 用于视频理解任务的多模态视觉大语言模型

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-04-20T00:00:00Z
FastVLM:视觉语言模型的高效视觉编码

提升图像分辨率对视觉语言模型(VLM)性能至关重要,但高分辨率下的视觉编码器效率低。FastVLM模型通过优化图像分辨率、延迟和准确性之间的平衡,采用新型混合视觉编码器FastViTHD,显著减少编码时间和视觉标记数量。与之前的方法相比,FastVLM在保持性能的同时,首次标记时间提升了3.2倍,并在高分辨率下表现优异。

FastVLM:视觉语言模型的高效视觉编码

Apple Machine Learning Research
Apple Machine Learning Research · 2025-04-18T00:00:00Z

本研究提出了一种名为“消失深度”的自监督训练方法,旨在解决视觉编码器在广义度量深度理解方面的不足。通过新颖的位置信息深度编码技术,该方法显著提升了多个RGBD下游任务的性能,且无需微调编码器。

Vanishing Depth: A Depth Adapter with Positional Depth Encoding for Generalized Image Encoders

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-03-25T00:00:00Z

Gaze-LLE是一个基于变换器的注视目标估计模型,利用预训练的视觉基础模型,在冻结的视觉编码器上学习轻量级解码器,显著减少参数量,无需额外输入如深度和姿态。该模型通过ONNX实现,支持人脸检测和注视预测。

C# OnnxRuntime Gaze-LLE 注视目标估计

dotNET跨平台
dotNET跨平台 · 2024-12-20T00:03:33Z
Florence-VL来了!使用生成式视觉编码器,重新定义多模态大语言模型视觉信息

AIxiv专栏促进学术交流,Florence-VL模型利用生成式视觉编码器Florence-2,克服传统视觉编码器的局限,提供多层次视觉特征,提升多模态任务的表现。

Florence-VL来了!使用生成式视觉编码器,重新定义多模态大语言模型视觉信息

机器之心
机器之心 · 2024-12-18T05:31:28Z

该研究提出了一种索引反向传播量化(IBQ)方法,解决了现有向量量化在可扩展性方面的不足,并优化了代码本与视觉编码器的联合训练。实验结果表明,IBQ在视觉生成任务中表现优异。

驯服可扩展的视觉标记器用于自回归图像生成

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-12-03T00:00:00Z
大型视觉编码器的多模态自回归预训练

AIMv2是一种大型视觉编码器,通过多模态自回归目标进行预训练,解决了视觉编码器与生成任务之间的不匹配。该模型在多模态任务和视觉识别基准上表现优异,训练效率高,所需样本显著少于现有技术。

大型视觉编码器的多模态自回归预训练

Apple Machine Learning Research
Apple Machine Learning Research · 2024-11-21T00:00:00Z

本文介绍了多模态大型语言模型LLaVA的优化研究,提出了区域级视觉编码器和MixLoRA等新方法,显著提升了模型在多样化任务中的性能。同时,研究探讨了基于语言的指令调优方法,改善了模型在零样本任务中的泛化能力,尤其在语言数据集上表现优异。

视觉线索增强与双低秩自适应在高效视觉指令微调中的应用

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-11-19T00:00:00Z

本研究提出LHRS-Bot-Nova,一种改进的多模态大语言模型,专注于遥感图像理解。该模型通过增强视觉编码器和新桥接层,优化视觉压缩和语言视觉对齐,显著提升遥感任务的效率和精确性。

LHRS-Bot-Nova: An Improved Multimodal Large Language Model for Remote Sensing Vision-Language Interpretation

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-11-14T00:00:00Z

该论文提出了一种多模态条件适应(MMCA)方法,旨在改进视觉引导模型的特征提取。通过动态更新视觉编码器的权重,MMCA能够更有效地处理与文本相关的区域。实验结果表明,该方法在多个数据集上显著提升了性能,且成本较低。

MMCA:多模态动态权重更新,视觉定位新SOTA | ACM MM'24 Oral - 晓飞的算法工程笔记

晓飞的算法工程笔记
晓飞的算法工程笔记 · 2024-11-04T01:43:00Z

本研究探讨了多模态大型语言模型中不同视觉编码器的有效性,发现CLIP在细粒度任务中表现优异,而DINO经过简单对齐后也展现出良好性能。研究提出的特征融合策略COMM有效结合了CLIP和DINO,显著提升了MLLMs的视觉能力。

预集成提示信息至视觉编码的多模态大语言模型框架

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-10-30T00:00:00Z
DeepSeek新作Janus:解耦视觉编码,引领多模态理解与生成统一新范式

Janus是一种多模态理解与生成模型,通过分离视觉编码器提升灵活性和性能。它使用两个独立的视觉编码器处理理解和生成任务,并通过统一的Transformer进行整合。实验显示,Janus在多模态理解和视觉生成任务上表现优于现有模型,具备更好的指令跟随和多语言生成能力,设计灵活易扩展,适用于更多模态。

DeepSeek新作Janus:解耦视觉编码,引领多模态理解与生成统一新范式

机器之心
机器之心 · 2024-10-22T05:14:51Z

视觉语言模型(VLM)由视觉编码器和语言模型组成。研究发现,不同编码器在任务中表现不同,没有单一最佳配置。为此,提出BRAVE方法,将多个编码器特征整合为更灵活的表示,作为语言模型输入。BRAVE在字幕生成和视觉问答中表现优异,减少了可训练参数,提升了视觉理解能力。

VisualRWKV-HD 和 UHD:推动视觉语言模型的高分辨率处理

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-10-15T00:00:00Z

本文介绍了一种端到端训练的理解网络,结合语言和视觉编码器,通过动态滤波器将文本知识转移到图像中,捕获对象的空间信息。生成的字幕网络增强了语言和视觉模块的通信,提高了表示效果。在两个数据集上的评估显示,该方法表现优异。

OneRef:统一的一塔式表达定位与分割方法

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-10-10T00:00:00Z
  • <<
  • <
  • 1 (current)
  • 2
  • >
  • >>
👤 个人中心
在公众号发送验证码完成验证
登录验证
在本设备完成一次验证即可继续使用

完成下面两步后,将自动完成登录并继续当前操作。

1 关注公众号
小红花技术领袖公众号二维码
小红花技术领袖
如果当前 App 无法识别二维码,请在微信搜索并关注该公众号
2 发送验证码
在公众号对话中发送下面 4 位验证码
友情链接: MOGE.AI 九胧科技 模力方舟 Gitee AI 菜鸟教程 Remio.AI DeekSeek连连 53AI 神龙海外代理IP IPIPGO全球代理IP 东波哥的博客 匡优考试在线考试系统 开源服务指南 蓝莺IM Solo 独立开发者社区 AI酷站导航 极客Fun 我爱水煮鱼 周报生成器 He3.app 简单简历 白鲸出海 T沙龙 职友集 TechParty 蟒周刊 Best AI Music Generator

小红花技术领袖俱乐部
小红花·文摘:汇聚分发优质内容
小红花技术领袖俱乐部
Copyright © 2021-
粤ICP备2022094092号-1
公众号 小红花技术领袖俱乐部公众号二维码
视频号 小红花技术领袖俱乐部视频号二维码