结构之法算法之道 ·

Diffusion Transformer(DiT)——将扩散过程中的U-Net换成ViT：近频繁用于视频生成与机器人动作预测(含清华PAD详解)

💡 原文中文，约7000字，阅读约需17分钟。

📝

内容提要

本文介绍了Diffusion Transformer（DiT），一种用Transformer架构替代U-Net的神经网络，结合了视觉Transformer和扩散模型的优点。DiT在视频生成中调整模型结构以支持不同分辨率，并引入时间维度以保持一致性。研究者还探讨了类似的U-ViT架构，强调了Transformer在扩散模型中的潜力。

🎯

关键要点

Diffusion Transformer（DiT）是一种用Transformer架构替代U-Net的神经网络，结合了视觉Transformer和扩散模型的优点。
DiT在视频生成中调整模型结构以支持不同分辨率，并引入时间维度以保持一致性。
DiT的架构包括训练条件潜在DiT模型和不同的条件策略，如自适应层归一化和交叉注意力。
为了支持视频生成，DiT需要设计模型结构以处理不同长宽比和分辨率，并加入时间维度。
U-ViT是比DiT更早的类似架构，采用基于Transformer的架构替代U-Net，局限于2D图像生成。
Google Research提出的Simple Diffusion架构与U-ViT相似，使用自注意力的MLP块替代卷积层。
北大和华为提出的U-DiT架构结合了U-Net和Transformer，旨在提升扩散模型的效果。

❓

延伸问答

Diffusion Transformer（DiT）是什么？

DiT是一种用Transformer架构替代U-Net的神经网络，结合了视觉Transformer和扩散模型的优点。

DiT在视频生成中如何调整模型结构？

DiT通过设计模型结构支持不同长宽比和分辨率，并引入时间维度以保持视频生成的一致性。

DiT的架构中有哪些条件策略？

DiT的架构包括自适应层归一化、交叉注意力和额外输入token等条件策略。

U-ViT与DiT有什么区别？

U-ViT是比DiT更早的架构，局限于2D图像生成，而DiT结合了时间维度，支持视频生成。

DiT在处理视频生成时使用了什么技术？

DiT使用了Causal Time Attention模块来收集历史时间信息，以维护生成视频的时间一致性。

U-DiT架构的创新点是什么？

U-DiT结合了U-Net和Transformer，旨在提升扩散模型的效果，并在算力上更为高效。

🏷️

继续阅读

AdaCodec：一种适用于 AI 生成视频的编解码器
上海研究提出AdaCodec编解码器，通过优化帧间信息存储，显著减少AI视频生成的资源消耗。该系统在保持性能的同时，视觉令牌使用量减少约86%，提高了视频...
Seedance MCP 对接指南
Seedance MCP 是由 Anthropic 推出的模型上下文协议，允许 AI 模型通过标准化接口调用外部工具。用户可以通过 AceData Clo...
智源&清华合作成果登上Science：脑科学多模态基础模型Brainμ支撑揭示“记忆-睡眠”调控的神经机制
研究表明，睡眠中的记忆重激活影响睡眠动态，提供了“记忆-睡眠”双向作用的新证据。智源研究院与清华大学的研究发现，负向记忆再激活加剧睡眠碎片化，而正向记忆再...
再谈响度战争：为什么你看的视频越来越「吵」了？
文章探讨了“响度战争”现象，即视频和音频内容为了吸引观众注意力而不断提高响度。这种趋势导致动态范围减小，影响听觉体验。虽然更响的声音能短期提升表现力，但可...
全球首个机器人训练楼盘开盘：30万套中国住宅，机器人拎包入住
大晓机器人与港中文MMLab推出Kairos-Homeworld，这是首个全屋三维生成与物体级交互框架，利用30万套中国住宅户型数据为机器人提供训练环境。...
Cloudflare观测数据显示全网机器人流量已经超过真实人类产生的访问
Cloudflare数据显示，机器人流量已超过真实人类流量，达到57.5%。这一增长与AI智能体的快速采用密切相关。尽管机器人流量在HTTP请求中占比更高...