小红花·文摘

Meta AI发布EUPE：一款参数量低于1亿的紧凑型视觉编码器，可同时处理各种视觉任务

实时互动网 ·

EncQA：基于视觉编码的图表视觉语言模型基准评估

Apple Machine Learning Research ·

机器之心数据服务现已上线，提供高效稳定的数据获取服务，帮助用户轻松获取所需数据。

OpenVision 2：大道至简的生成式预训练视觉编码器

机器之心 ·

FastVLM：视觉语言模型的高效视觉编码

Apple Machine Learning Research ·

Meta AI 推出感知编码器：一款大规模视觉编码器，在图像和视频的多项视觉任务中表现出色

实时互动网 ·

FastVLM：视觉语言模型的高效视觉编码

Apple Machine Learning Research ·

掌握数据可视化：CBSE 12年级计算机科学的全面指南

DEV Community ·

DeepSeek发布了另一个开源AI模型Janus-Pro

InfoQ ·

本研究解决了视觉语言模型中多种视觉编码器的计算成本高的问题，提出了一种新的框架MoVE-KD，通过将多个视觉编码器的独特能力蒸馏成一个高效模型。研究结果表明，该方法有效改善了模型的适应性和效率，具有显著的性能提升。

MoVE-KD：针对视觉语言模型的知识蒸馏与视觉编码器混合

BriefGPT - AI 论文速递 ·

Florence-VL来了！使用生成式视觉编码器，重新定义多模态大语言模型视觉信息

机器之心 ·

大型视觉编码器的多模态自回归预训练

Apple Machine Learning Research ·

该研究提出了MMICL模型，旨在解决图像与文本的多模态提示问题，提升视觉-语言模型的性能。通过结合CLIP和DINO的特征，提出了COMM策略，增强了模型的视觉能力。实验结果表明，MMICL在复杂推理任务中表现优异，有效缓解了语言偏差问题，展现了在多模态基准测试中的竞争力。

预集成提示信息至视觉编码的多模态大语言模型框架

BriefGPT - AI 论文速递 ·

DeepSeek新作Janus：解耦视觉编码，引领多模态理解与生成统一新范式

机器之心 ·

本文探讨了多模态transformer模型在语言和视觉任务中的应用，重点研究了零样本图像检索的影响因素。提出了i-Code V2和Emu2等模型，展示了多模态预训练的强大性能。instruct-imagen模型通过多模态指导实现图像生成，Anole展示了高效的图像-文本生成能力。最后，Show-o模型结合自回归和离散扩散建模，展现了在多模态理解与生成任务中的潜力。

Janus：解耦视觉编码以实现统一的多模态理解与生成

BriefGPT - AI 论文速递 ·

本文总结了低成本稳定的2.5/3D视觉感知器件在室内环境视觉场景理解中的应用，探讨了数据表示、核心技术和性能评价。研究提出了基于场景图的三维语义理解、语义视图综合和视觉转换器等多种方法，以提高场景理解的准确性和多样性，并分析了不同视觉编码模型的优缺点，强调了未来选择编码器的灵活性。

向虚拟场景表征的过渡

BriefGPT - AI 论文速递 ·

本研究解决了现有视觉编码器在图像与文本识别上的局限性，提出了一种名为UNIT的新训练框架，旨在将图像和文本识别整合于单一模型中。通过多尺度输入的统一表示学习和缩放交换数据的微调，UNIT显著提升了文本识别能力，同时保持了图像识别的核心性能，展示了其在文档相关任务中的优越表现。

UNIT：将图像与文本识别统一于一个视觉编码器

BriefGPT - AI 论文速递 ·

多模态大型语言模型（MLLMs）通过整合视觉知识和专家混合机制，提升了视觉感知能力。本文回顾了MLLMs的架构、对齐策略和训练技术，分析了其在视觉理解和图像生成等任务中的表现，并比较了现有模型的性能和计算要求。研究表明，多种数据的预训练对实现最新成果至关重要。

MaVEn：一种有效的多粒度混合视觉编码框架用于多模态大语言模型

BriefGPT - AI 论文速递 ·

本文研究了视觉语言模型（VLM）的视觉编码能力，提出了BRAVE方法，通过整合多个编码器特征，提升了字幕生成和视觉问答的性能。研究还探讨了无监督微调和多模任务的适应方法，表明结合多种视觉偏差能显著改善VLM的表现。

缺失视觉编码器：视觉语言模型的高效稳健调整

BriefGPT - AI 论文速递 ·

本文介绍了一种新的医学图像配准方法DINO-Reg，该方法利用训练免费的图像编码器，首次将通用视觉模型应用于医学图像配准，显著提升了注册的准确性和适应性。提出的RAD-DINO编码器在多项基准测试中优于传统模型，展示了深度学习在医学图像处理中的潜力。

以一般视觉编码器特征为导向的医学图像配准

BriefGPT - AI 论文速递 ·

抛弃视觉编码器，这个「原生版」多模态大模型也能媲美主流方法

机器之心 ·