小红花·文摘

ERNIE-Image开源SOTA ！消费级显卡搞定顶级渲染、高密度文本绘图

百度大脑 ·

STIV：可扩展的文本和图像条件视频生成

Apple Machine Learning Research ·

AI封神了！无剪辑一次直出60秒《猫和老鼠》片段，全网百万人围观

机器之心 ·

360AI推出了新一代高效可控生成框架RelaCtrl，参数量减少85%，性能超越OminiControl。该框架优化了Diffusion Transformer的控制信号集成，提升了计算资源分配效率，实验结果显示生成质量和控制精度均表现优异。

360AI推出DiT架构下”省钱版”ControlNet, 参数量骤减85%性能达到SOTA！

量子位 ·

炒菜、雕刻、绘画、汽车人变形！MakeAnything用扩散Transformer解锁多任务过程生成

机器之心 ·

文章讨论了对π0开源项目的期待与遗憾，分析了OpenVLA和CogACT的源码，重点介绍了动作预测模块的实现，包括ActionTokenizer类的功能和Diffusion Transformer的架构。通过对比不同模型，探讨如何改进VLA以接近π0的思路。

一文通透OpenVLA及其源码剖析——基于Prismatic VLM(SigLIP、DinoV2、Llama 2)及离散化动作预测

结构之法算法之道 ·

本文介绍了Diffusion Transformer（DiT），一种用Transformer架构替代U-Net的神经网络，结合了视觉Transformer和扩散模型的优点。DiT在视频生成中调整模型结构以支持不同分辨率，并引入时间维度以保持一致性。研究者还探讨了类似的U-ViT架构，强调了Transformer在扩散模型中的潜力。

Diffusion Transformer(DiT)——将扩散过程中的U-Net换成ViT：近频繁用于视频生成与机器人动作预测(含清华PAD详解)

结构之法算法之道 ·

ViT在DDPM取代UNet(DiT)

plus studio ·