基于区域注意力和精细化的轻量级人像抠图
该文介绍了一种高分辨率人像抠图的轻量级模型,采用了两阶段的框架,通过 Vision Transformer 作为低分辨率网络的主干,能够在高清视频中实时进行处理。该模型在细化网络中提出了一种新颖的跨区域注意力模块,取得了优越结果。
原文中文,约400字,阅读约需1分钟。
该文介绍了一种高分辨率人像抠图的轻量级模型,采用了两阶段的框架,通过 Vision Transformer 作为低分辨率网络的主干,能够在高清视频中实时进行处理。该模型在细化网络中提出了一种新颖的跨区域注意力模块,取得了优越结果。