本文研究了知识蒸馏在视觉丰富的文档应用中的应用。通过实验发现,不同架构和容量的骨干模型之间的知识传递策略可以优于监督学生训练。同时,通过下游任务设置,评估了蒸馏的布局分析模型在零样本布局感知文档视觉问答上的鲁棒性。结果表明,需要进一步探索如何高效获得更多的语义文档布局意识。
本文介绍了一种名为ConMatch的半监督学习框架,通过一致性正则化和伪标签置信度确定权重,提高了性能。该方法提出了新的伪标签置信度度量方法,可以端到端地与骨干模型一起训练。实验和消融研究证明了ConMatch的有效性。
完成下面两步后,将自动完成登录并继续当前操作。