结合计算机视觉和机器人领域中的下一个标记预测与视频扩散
原文英文,约1100词,阅读约需4分钟。发表于: 。A new method can train a neural network to sort corrupted data while anticipating next steps. It can make flexible plans for robots, generate high-quality video, and help AI agents navigate...
麻省理工学院CSAIL开发了一种名为“Diffusion Forcing”的序列模型训练技术,结合扩散模型和教师强制的优点。该方法通过对标记添加噪声,实现灵活的序列生成,提升视频质量和机器人决策精度。实验显示其能忽略误导数据,生成稳定视频,并在迷宫任务中表现优异。研究团队计划扩大数据集并使用最新Transformer模型以提高性能。