统一transformer与diffusion！Meta融合新方法剑指下一代多模态王者

机器之心 ·

统一transformer与diffusion！Meta融合新方法剑指下一代多模态王者

💡 原文中文，约2600字，阅读约需6分钟。

📝

内容提要

本文介绍了一种名为Transfusion的多模态模型训练方法，可以在离散和连续数据上进行训练。通过训练单个模型来预测离散文本token和扩散连续图像，实现了两种模态的完全集成。实验结果表明，Transfusion的扩展能力优于其他方法，并且可以生成与扩散模型和语言模型相媲美的图像和文本。该方法在基准测试中表现优秀，是一种有前途的多模态模型训练方法。

🎯

关键要点

Transfusion是一种可以在离散和连续数据上训练多模态模型的方法。
多模态生成模型需要处理离散元素（如文本）和连续元素（如图像）。
语言模型在离散模态领域占主导地位，而扩散模型在生成连续模态方面是最先进的技术。
研究者尝试将语言模型与扩散模型结合，但传统方法可能导致信息丢失。
Transfusion通过训练单个模型来预测离散文本token和扩散连续图像，实现了两种模态的完全集成。
Transfusion结合了语言模型损失函数与扩散，在混合模态序列上训练单个transformer。
实验表明，Transfusion的扩展能力优于将图像量化并在离散图像token上训练语言模型的方法。
Transfusion方法扩展到70亿参数和2万亿多模态token，生成的图像和文本与其他模型相媲美。
在GenEval基准测试中，Transfusion模型优于DALL-E 2和SDXL，并在文本基准测试中表现出色。
Transfusion通过共享数据和参数对不同模态使用单独的损失，证明了其可行性和扩展性。
Transfusion结合了因果注意力和双向注意力，允许高效的信息交流和聚焦。
经过微调的Transfusion模型可以执行图像编辑任务。

❓

延伸问答

Transfusion模型的主要创新是什么？

Transfusion模型的主要创新是能够在共享数据和参数的基础上，对不同模态使用单独的损失函数，从而实现离散和连续模态的完全集成。

Transfusion如何处理离散和连续数据？

Transfusion通过训练单个模型来同时预测离散文本token和扩散连续图像，实现了两种模态的完全集成。

Transfusion在基准测试中的表现如何？

在GenEval基准测试中，Transfusion模型优于DALL-E 2和SDXL，并在文本基准测试中表现出色。

Transfusion模型的参数规模有多大？

Transfusion模型的参数规模可以扩展到70亿，并能够处理2万亿多模态token。

Transfusion模型如何结合语言模型和扩散模型？

Transfusion结合了语言模型的损失函数与扩散模型，通过在混合模态序列上训练单个transformer来实现。

经过微调的Transfusion模型可以执行哪些任务？

经过微调的Transfusion模型可以执行图像编辑任务，例如将纸杯蛋糕从盘子中移除。

🏷️

继续阅读

字节开源统一框架Bernini：给DiT配个“大模型军师”，AI视频编辑先理解再动手
字节推出了开源视频生成与编辑框架Bernini，强调“先理解再生成”。该框架利用多模态大模型进行语义理解，并通过扩散模型实现高质量渲染，解决视频编辑中的一...
英伟达与联发科联手打造RTX Spark超级芯片：手机能效与PC性能的跨界融合
英伟达与联发科联合研发的全新RTX Spark超级芯片发布，旨在解决PC性能与功耗瓶颈。该芯片集成高效能CPU和GPU，提供1 PFLOP的AI算力，支持...
2026 06 03 HackerNews
预计SpaceX、Anthropic和OpenAI的首次公开募股将成为历史上最大规模的上市事件，可能为美股市值增加约4万亿美元。Mullvad警告社交媒体...
运营一个以人工智能为核心的工程组织
工程团队在使用Claude Code后，工作流程显著变化，传统规划被即时规划取代，强调原型和用户反馈。信息收集时优先询问Claude，代码审查中Claud...
Go 生态17年大浪淘沙：2026年最值得引入的10个“神仙级”QoL工具包
2026年，Go语言生态发生重大变革，推荐10个提升开发体验的工具包，包括sqlc（类型安全数据库编译器）、chi（轻量级路由器）、pgx（Postgre...
微软新模型MAI-Code-1-Flash：比Claude Haiku强还省60%Token
微软新发布的MAI-Code-1-Flash编程模型专注于代码生成，声称能比Claude Haiku节省60%的Token。该模型适合简单任务，执行效率高...