小红花·文摘

CVPR 2026 | PixelDiT：用于图像生成的像素扩散变换器

实时互动网 ·

LaDiR：潜在扩散增强大型语言模型的文本推理

Apple Machine Learning Research ·

条件扩散中的组合泛化的局部机制

Apple Machine Learning Research ·

Modular：前沿编码代理如何在MAX上构建视频扩散管道

Modular Blog ·

ICLR 2026 | 对抗扩散压缩算法在真实世界视频重建任务中的应用

实时互动网 ·

$RDT2——基于UMI数据实现零样本且跨本体的泛化：先训练VLM、后训练扩散动作专家、最后将扩散策略蒸馏为一步生成器(挑战叠衣服)$

RDT2——基于UMI数据实现零样本且跨本体的泛化：先训练VLM、后训练扩散动作专家、最后将扩散策略蒸馏为一步生成器(挑战叠衣服)

结构之法算法之道 ·

突破RNA设计瓶颈，上智院联合复旦、上交提出全球首个强化学习与潜扩散融合框架SOLD

机器之心 ·

在线教程丨GLM-Image基于自回归+扩散解码器混合架构，精准理解指令写对文字

HyperAI超神经 ·

并行扩散架构突破极限，实现5分钟AI视频生成，「叫板」OpenAI与谷歌？

机器之心 ·

Instantvir：实时视频逆问题求解器，提炼扩散先验实现超快速重建

实时互动网 ·

条件扩散中的组合泛化的局部机制

Apple Machine Learning Research ·

$DreamControl——结合扩散模型和RL的全身人形控制：利用在人体运动数据上训练得到的扩散先验，随后在仿真中引导RL策略完成特定任务$

DreamControl——结合扩散模型和RL的全身人形控制：利用在人体运动数据上训练得到的扩散先验，随后在仿真中引导RL策略完成特定任务

结构之法算法之道 ·

TADA：一种改进的无训练增强动态扩散采样方法

Apple Machine Learning Research ·

腾讯混元升级了AI绘画微调方法，通过Direct-Align和语义相对偏好优化（SRPO）显著提升了图像的真实感和美学评分，人工评估分数提高300%。新方法在32块H20上训练10分钟即可收敛，解决了传统模型的优化局限性，并支持在线调整奖励信号，生成图像质量显著提升。

腾讯混元升级AI绘画微调范式，在整个扩散轨迹上优化，人工评估分数提升300%

量子位 ·

本文探讨了人形机器人在运动追踪和控制方面的进展，重点介绍了BeyondMimic和UniTracker两个项目。BeyondMimic旨在解决真实环境中的运动跟踪和sim2real迁移问题，而UniTracker通过条件变分自编码器提升运动表现力和全局一致性。这些研究为人形机器人的高效控制和应用提供了新思路。