这篇技术报告介绍了将各种视觉数据转化为统一表示的方法,用于大规模生成模型的训练,并对Sora的能力和限制进行了评估。Sora是一种通用模型,可以生成不同持续时间、宽高比和分辨率的视频和图像。
该研究提出了一种名为MaskConver的全景分割架构,通过预测物体和背景的中心来实现事物和物质的统一表示。该模型在COOC全景验证集上表现更好,且在移动设备上实时运行。
完成下面两步后,将自动完成登录并继续当前操作。