PBFormer:使用多项式带变换器捕捉复杂场景文字形状
原文中文,约200字,阅读约需1分钟。发表于: 。我们提出了 PBFormer,一种高效而强大的场景文本检测器,将变压器和一种新颖的文本形状表示多项式带(PB)结合起来。
本文介绍了DPText-DETR算法,通过明确的点坐标生成位置查询,并以渐进方式更新。还提出了增强的分解自我注意力模块,为每个实例提供圆形形状指导的点查询,并使用简单有效的位置标签形式解决副作用。实验证明该方法在基准测试中具有高训练效率、鲁棒性和最先进性能。
我们提出了 PBFormer,一种高效而强大的场景文本检测器,将变压器和一种新颖的文本形状表示多项式带(PB)结合起来。
本文介绍了DPText-DETR算法,通过明确的点坐标生成位置查询,并以渐进方式更新。还提出了增强的分解自我注意力模块,为每个实例提供圆形形状指导的点查询,并使用简单有效的位置标签形式解决副作用。实验证明该方法在基准测试中具有高训练效率、鲁棒性和最先进性能。