Muse是一种文本到图像的Transformer模型,能够根据文本生成高质量图像,并支持图像编辑。研究介绍了文本导向的三维生成技术,包括头像、纹理和场景生成。用户可以通过Control3D根据草图交互式控制三维内容生成。CompAgent方法在复杂文本提示下保持图像可控性,L3GO模型和Agent3D-Zero框架提升了三维场景理解能力。
该文章介绍了名为MUSES的多传感器语义感知数据集,用于自动驾驶。数据集包括2500张图像,捕捉了多样化的天气和照明条件,并使用了多种传感器。该数据集引入了新任务——不确定性感知全景分割,并提供了标准的语义分割和全景分割。该数据集为多模态和不确定性感知的研究提供了新途径。
完成下面两步后,将自动完成登录并继续当前操作。