小红花·文摘 - 小红花技术领袖俱乐部

Google DeepMind 发布 Gemma 4 12B：一款无需编码器的多模态模型，支持原生音频

Google DeepMind 发布 Gemma 4 12B：一款无需编码器的多模态模型，支持原生音频

实时互动网 ·

本研究提出了一种名为BREEN的无编码器多模态学习架构，旨在减少训练数据需求。BREEN通过可学习查询和图像专家提高了性能，为传统编码器方法提供了有效的替代方案。

Data-Efficient Encoder-Free Multimodal Learning: BREEN and Learnable Queries

BriefGPT - AI 论文速递 ·

本研究提出了一种新型无编码器多模态大语言模型SynerGen-VL，采用令牌折叠机制和视觉专家的预训练策略，简化了模型架构和训练流程，支持高分辨率图像理解。经过训练，SynerGen-VL的性能与现有模型相当或更佳，展现了统一多模态模型的潜力。

SynerGen-VL: Towards Synergistic Image Understanding and Generation with Vision Experts and Token Folding

BriefGPT - AI 论文速递 ·

抛弃视觉编码器，这个「原生版」多模态大模型也能媲美主流方法

抛弃视觉编码器，这个「原生版」多模态大模型也能媲美主流方法

机器之心 ·