基于区域注意力和精细化的轻量级人像抠图

💡 原文中文,约400字,阅读约需1分钟。
📝

内容提要

该文介绍了一种高分辨率人像抠图的轻量级模型,采用了两阶段的框架,通过 Vision Transformer 作为低分辨率网络的主干,能够在高清视频中实时进行处理。该模型在细化网络中提出了一种新颖的跨区域注意力模块,取得了优越结果。

🎯

关键要点

  • 提出了一种高分辨率人像抠图的轻量级模型,无需辅助输入。
  • 模型采用两阶段框架,低分辨率网络用于粗糙透明度估计,细化网络改善局部区域。
  • 使用 Vision Transformer(ViT)作为低分辨率网络的主干,降低空间分辨率。
  • 细化网络中提出新颖的跨区域注意力(CRA)模块,以传播局部上下文信息。
  • 在三个基准数据集上取得优越结果,性能优于现有最先进模型的 $1/20$ FLOPS。
➡️

继续阅读