DocSAM:通过查询分解和异构混合学习实现统一文档图像分割
📝
内容提要
本文针对文档图像分割面临的多样性问题,提出了一种新的统一框架DocSAM,旨在解决文档布局分析、多粒度文本分割和表格结构识别等多种文档图像分割任务。DocSAM通过将实例分割和语义分割相结合,从而提高了在异构数据集上的训练效率和模型的泛化能力,显著提升了分割的准确性和适应性,为文档图像理解与分割的提交进展提供了重要支持。
➡️