本文介绍了READ框架,利用递归自动编码器生成多样的文档2D布局。通过递归提取文档结构,并用标注数据集学习结构表示,将其映射到高斯空间生成新布局。引入组合度量评估布局相似性,证明生成布局具有高可变性和实际应用性,尤其在文本检测任务中表现出色。
该研究提出了一种孟加拉语OCR系统,能够准确提取文本并重建文档布局。该系统适应多种文档类型,包括计算机排版、凸版印刷、打字机和手写文档,并能处理静态和动态手写输入。该系统还能识别孟加拉语中的复合字符,并具有图像、标志、签名和表格识别等额外功能。
本文介绍了一种名为READ的新框架,利用递归自动编码器生成多样的文档布局,并通过学习文档数据集的结构分解和边界框标注,获得结构表示形式并映射到高斯空间,生成新的文本布局。同时,引入组合度量来测量文档布局之间的结构相似性,并在文本检测任务中证明了所生成布局的作用。
本文介绍了一种名为READ的新框架,利用递归自动编码器生成多样的文档布局,并通过学习文档数据集的结构分解和边界框标注,获得结构表示形式,并将其映射到高斯空间,生成新的文本布局。同时,引入组合度量来测量文档布局之间的结构相似性,并在文本检测任务中证明了所生成布局的作用。
完成下面两步后,将自动完成登录并继续当前操作。