小红花·文摘

Meta AI发布EUPE：一款参数量低于1亿的紧凑型视觉编码器，可同时处理各种视觉任务

实时互动网 ·

可扩展多模态模型服务的编码器解耦

vLLM Blog ·

$一文速览Eagle、Eagle 2、Eagle 2.5——英伟达开源的VLM：用于人形VLA GR00T N1和N1.5中$

一文速览Eagle、Eagle 2、Eagle 2.5——英伟达开源的VLM：用于人形VLA GR00T N1和N1.5中

结构之法算法之道 ·

对比定位语言-图像预训练

Apple Machine Learning Research ·

字节推出的Seed1.5-VL多模态推理模型在60项基准测试中获得38项第一，表现优异。该模型结合532M视觉编码器和200亿参数，擅长复杂推理、OCR和图像理解。通过创新的训练方法和架构设计，模型在多模态数据处理上表现突出，但仍存在局限性。

拿下38项第一！字节发布Seed1.5-VL多模态推理模型

量子位 ·

本研究提出了ResNetVLLM框架，结合ResNet视觉编码器与大型语言模型，旨在解决零-shot视频理解问题。该模型在多个基准测试中表现优异，能够生成准确的上下文相关文本描述。

ResNetVLLM - 用于视频理解任务的多模态视觉大语言模型

BriefGPT - AI 论文速递 ·

FastVLM：视觉语言模型的高效视觉编码

Apple Machine Learning Research ·

本研究提出了一种名为“消失深度”的自监督训练方法，旨在解决视觉编码器在广义度量深度理解方面的不足。通过新颖的位置信息深度编码技术，该方法显著提升了多个RGBD下游任务的性能，且无需微调编码器。

Vanishing Depth: A Depth Adapter with Positional Depth Encoding for Generalized Image Encoders

BriefGPT - AI 论文速递 ·

Gaze-LLE是一个基于变换器的注视目标估计模型，利用预训练的视觉基础模型，在冻结的视觉编码器上学习轻量级解码器，显著减少参数量，无需额外输入如深度和姿态。该模型通过ONNX实现，支持人脸检测和注视预测。

C# OnnxRuntime Gaze-LLE 注视目标估计

dotNET跨平台 ·

Florence-VL来了！使用生成式视觉编码器，重新定义多模态大语言模型视觉信息

机器之心 ·

该研究提出了一种索引反向传播量化（IBQ）方法，解决了现有向量量化在可扩展性方面的不足，并优化了代码本与视觉编码器的联合训练。实验结果表明，IBQ在视觉生成任务中表现优异。

大型视觉编码器的多模态自回归预训练

Apple Machine Learning Research ·

本文介绍了多模态大型语言模型LLaVA的优化研究，提出了区域级视觉编码器和MixLoRA等新方法，显著提升了模型在多样化任务中的性能。同时，研究探讨了基于语言的指令调优方法，改善了模型在零样本任务中的泛化能力，尤其在语言数据集上表现优异。

视觉线索增强与双低秩自适应在高效视觉指令微调中的应用

BriefGPT - AI 论文速递 ·

本研究提出LHRS-Bot-Nova，一种改进的多模态大语言模型，专注于遥感图像理解。该模型通过增强视觉编码器和新桥接层，优化视觉压缩和语言视觉对齐，显著提升遥感任务的效率和精确性。

LHRS-Bot-Nova: An Improved Multimodal Large Language Model for Remote Sensing Vision-Language Interpretation

BriefGPT - AI 论文速递 ·

该论文提出了一种多模态条件适应（MMCA）方法，旨在改进视觉引导模型的特征提取。通过动态更新视觉编码器的权重，MMCA能够更有效地处理与文本相关的区域。实验结果表明，该方法在多个数据集上显著提升了性能，且成本较低。

MMCA：多模态动态权重更新，视觉定位新SOTA | ACM MM'24 Oral - 晓飞的算法工程笔记

晓飞的算法工程笔记 ·

DeepSeek新作Janus：解耦视觉编码，引领多模态理解与生成统一新范式

机器之心 ·

OtterHD-8B是一种高分辨率图像处理的多模态模型，表现优于其他模型。研究表明，视觉编码器的预训练分辨率对模型效果有显著影响。新框架PerceptionGPT通过LLMs的token嵌入提升视觉感知能力，同时减少训练参数和时间。InfiMM-HD和VRWKV等新架构提高了视觉感知能力并降低计算成本。DC$^2$框架在4K和8K图像上显著提升了准确率。Qwen2-VL系列引入动态分辨率机制，优化视觉表示。