该演讲介绍了Diff2Scene,一种利用冻结的文本-图像生成模型进行开放词汇3D语义理解的方法。它无需标记的3D数据,能够有效识别3D场景中的物体、外观和位置。
本文介绍了多种文档理解模型的进展,包括SynthTIGER、DSPS、GenDoc、DocFormerv2、TransferDoc和InstructDoc等。这些模型通过结合不同技术,提升了文本图像生成和文档理解的性能,解决了数据不足和长尾问题。同时,研究探讨了大语言模型与图像生成模型的结合,提出了ViTLP模型,以优化文本和布局建模,显著提高了文档理解能力。
完成下面两步后,将自动完成登录并继续当前操作。