机器之心 ·

生成与理解相互促进！华科字节提出Liquid，揭示统一多模态模型尺度规律！

💡 原文中文，约4200字，阅读约需10分钟。

📝

内容提要

AIxiv专栏报道Liquid框架，该框架通过VQGAN将图像编码为离散视觉token，实现多模态生成与理解的统一。Liquid无需修改现有大语言模型，降低训练成本并保留语言能力，推动多模态智能发展。实验结果表明，Liquid在视觉生成和理解任务中表现优异，验证了多模态任务的互惠关系。

🎯

关键要点

AIxiv专栏报道Liquid框架，该框架通过VQGAN将图像编码为离散视觉token，实现多模态生成与理解的统一。
Liquid无需修改现有大语言模型，降低训练成本并保留语言能力，推动多模态智能发展。
Liquid框架采用VQGAN作为图像分词器，将图像与文本token共享同一词表空间。
研究发现，Liquid在视觉生成和理解任务中表现优异，验证了多模态任务的互惠关系。
Liquid节省100倍训练成本，相比从头训练的模型，具备更强的多模态能力。
Liquid的架构设计基于现有LLM，未对其结构进行修改，仅添加图像token嵌入。
实验表明，随着模型规模的增加，视觉生成能力与语言能力之间的权衡逐渐消失。
理解与生成任务通过共享表征空间实现双向促进，验证了统一建模的联合优化优势。
Liquid在视觉生成和理解任务中超越了传统模型，展示了其在多模态能力上的潜力。
本文为大规模预训练提供了新的思路，揭示了多模态任务间的互惠关系和尺度现象。

❓

延伸问答

Liquid框架的主要创新点是什么？

Liquid框架通过VQGAN将图像编码为离散视觉token，实现了多模态生成与理解的统一，且无需修改现有大语言模型。

Liquid如何降低训练成本？

Liquid节省了100倍的训练成本，相比从头训练的模型，具备更强的多模态能力。

Liquid在视觉生成和理解任务中的表现如何？

实验表明，Liquid在视觉生成和理解任务中表现优异，超越了传统模型，验证了多模态任务的互惠关系。

Liquid框架是如何实现视觉与文本的统一表征的？

Liquid通过将图像编码为离散视觉token，使其与文本token共享同一词表空间，从而实现视觉与文本的统一表征。

Liquid的架构设计有什么特点？

Liquid基于现有大语言模型构建，未对其结构进行修改，仅添加了图像token嵌入，保留了原有的训练目标。

Liquid如何验证多模态任务的互惠关系？

研究发现，理解与生成任务通过共享表征空间实现双向促进，验证了统一建模的联合优化优势。

🏷️

继续阅读

字节开源统一框架Bernini：给DiT配个“大模型军师”，AI视频编辑先理解再动手
字节推出了开源视频生成与编辑框架Bernini，强调“先理解再生成”。该框架利用多模态大模型进行语义理解，并通过扩散模型实现高质量渲染，解决视频编辑中的一...
微软押注企业AI竞赛将依赖数据上下文而非模型能力
微软在Build 2026开发者大会上推出了Microsoft Fabric，旨在解决企业AI中的数据上下文问题。新平台包括HorizonDB数据库、GP...
特朗普签署行政命令，要求在发布前审查人工智能模型
特朗普签署行政命令，要求AI公司在发布前自愿向政府分享其模型，以促进安全创新并增强网络安全。该命令强调AI行业的成功与创新不应受到过度监管，同时承认新技术...
在线教程丨英伟达开源LocateAnything，3B模型可实现图像+视频的目标指向/开放词汇目标检测/指代表达定位/OCR文本定位等功能
NVIDIA 最近推出了视觉语言定位模型LocateAnything-3B，拥有30亿参数，支持多种视觉定位任务。其核心创新为并行框解码（PBD），显著提...
金融机构为何趋向于交易基础模型以构建自身智能
金融机构正在采用交易基础模型，构建统一的智能系统，以克服现有模型的孤立性。通过大型AI系统，机构能够更好地理解消费者行为，提升反欺诈和信用评分等领域的表现...
GPT Realtime 2.0实时语音模型17个创业方向
GPT Realtime 2.0模型实现了边听边思考的实时智能应用，提供了17个创业机会，如实时合同谈判助手、语音控制交易终端和多语种活动主持人。这些应用...