基于区域注意力和精细化的轻量级人像抠图

我们提出了一个高分辨率人像抠图的轻量级模型，无需使用任何辅助输入，并能在高清视频中实时进行处理。我们的模型采用了两阶段的框架，其中低分辨率网络用于粗糙的透明度估计，后续的细化网络用于改善局部区域。通过利用 Vision Transformer（ViT）作为低分辨率网络的主干，在遵循像素信息的同时，能够通过 ViT...

该文介绍了一种高分辨率人像抠图的轻量级模型，采用了两阶段的框架，通过 Vision Transformer 作为低分辨率网络的主干，能够在高清视频中实时进行处理。该模型在细化网络中提出了一种新颖的跨区域注意力模块，取得了优越结果。