BriefGPT - AI 论文速递 ·

EAFormer：基于边缘感知 Transformer 的场景文本分割

💡 原文中文，约2000字，阅读约需5分钟。

📝

内容提要

本文介绍了多种基于Transformer架构的文本定位和语义分割方法，如TextFormer、EFormer和EDAFormer。这些方法通过多任务建模、特征提取和自适应模块的结合，显著提高了文本检测和分割的准确性与效率，尤其在双语数据集和移动设备上表现优异。

🎯

TextFormer 是一种基于 Transformer 架构的查询式端到端文本定位算法，采用多任务建模和自适应全局聚合模块，提升了双语数据集上的文本检测和定位效果。
EFormer 方法通过建立语义和轮廓探测器，增强了模型对语义和轮廓特征的注意力，在肖像抠图任务中表现优于之前的方法。
EDAFormer 结合了无嵌入变换器编码器和全注意力解码器，在多个公共基准中展示了高效的语义分割性能，并减少了计算成本。
SRFormer 统一模型融合了分割和回归，通过渐进式回归优化提升了性能，并在多个基准测试中表现出色。
HAFormer 结合了 CNN 和 Transformer 的特性，通过自适应多尺度特征提取和简化计算，实现在轻量级语义分割中的高性能。
SegFormer 是一种高效的语义分割框架，展示了轻量设计对提高 Transformers 效率的重要性，最好的模型在 Cityscapes 验证集上达到了 84.0% 的 mIoU。
SeaFormer 是一种用于移动语义分割的新方法，在移动设备上实现了最佳的分割准确性和延迟权衡，展示了其作为通用移动友好主干的潜力。
EPCFormer 通过表达协作机制实现音频和文本对象之间的高准确定位和分割，在相关任务上取得了最新的结果。

❓

TextFormer 是一种基于 Transformer 架构的查询式端到端文本定位算法，采用多任务建模和自适应全局聚合模块，提升了双语数据集上的文本检测和定位效果。

EFormer 方法通过建立语义和轮廓探测器，增强了模型对语义和轮廓特征的注意力，在肖像抠图任务中表现优于之前的方法。

EDAFormer 结合了无嵌入变换器编码器和全注意力解码器，在多个公共基准中展示了高效的语义分割性能，并减少了计算成本。

HAFormer 结合了 CNN 和 Transformer 的特性，通过自适应多尺度特征提取和简化计算，实现了轻量级语义分割中的高性能。

SegFormer 是一种高效的语义分割框架，最好的模型在 Cityscapes 验证集上达到了 84.0% 的 mIoU，显示了出色的零-shot 鲁棒性。

SeaFormer 是一种用于移动语义分割的新方法，在移动设备上实现了最佳的分割准确性和延迟权衡，展示了其作为通用移动友好主干的潜力。

🏷️