DriveDiTFit:面向自动驾驶的精调扩散 Transformer
原文中文,约300字,阅读约需1分钟。发表于: 。通过 Fine-tuning 预训练的 Diffusion Transformers 生成多样的自动驾驶数据,以应对不同的驾驶场景、逆境天气和光照条件,并确保高质量的小型移动物体生成。
本文介绍了一种名为Flexible Vision Transformer (FiT)的变压器架构,用于生成具有无限制分辨率和宽高比的图像。FiT通过网络结构和外推技术的集成,在广泛分辨率范围内实现了灵活性和有效性。