小红花·文摘

本文介绍了基于掩模驱动的 Mask2Former 模型，该模型在实例分割、全景分割和语义分割任务中显著提升了精度和训练速度，并在视频实例分割领域表现优异。通过优化超参数，模型在 ImageNet 数据集上达到了 7.26 的 FID，验证了其在图像生成方面的有效性和可复现性。