机器之心 ·

NeurIPS2024 | OCR-Omni来了，字节&华师提出统一的多模态文字理解与生成大模型

💡 原文中文，约2400字，阅读约需6分钟。

📝

内容提要

研究提出了多模态生成模型TextHarmony，通过结合ViT、MLLM和Diffusion Model，解决视觉与语言模态不一致的问题，实现了视觉文本的统一感知、理解和生成。Slide-LoRA技术动态整合模态专家，提升性能。TextHarmony在视觉文本理解、生成和编辑方面表现出色。

🎯

🔎

当前OCR领域的研究主要集中在单模态生成任务，缺乏统一的多模态生成大模型。TextHarmony的提出，正是为了应对视觉与语言模态之间的固有不一致性，推动多模态生成技术的发展。这一创新不仅提升了模型性能，也为未来的多模态应用开辟了新的可能性。

Slide-LoRA技术通过动态整合模态专家，有效解决了训练过程中的模态不一致问题。这一方法的引入，不仅提升了TextHarmony的生成能力，也为其他多模态模型的设计提供了新的思路，可能会在更广泛的应用场景中得到推广。

研究团队开发的DetailedTextCaps-100K数据集为TextHarmony的训练提供了丰富的视觉和文本元素。这一高质量数据集的使用，显著提升了模型在视觉文本生成方面的性能，强调了数据质量在多模态生成模型中的重要性。

❓

TextHarmony模型成功整合了视觉文本的理解和生成能力，解决了多模态生成中的模态不一致问题。

Slide-LoRA技术通过动态整合模态专家，解决训练过程中的模态不一致问题，实现了图像和文本生成的部分解耦。

TextHarmony在视觉文本理解方面显著优于多模态生成模型，性能接近专业文字理解模型如Monkey。

该数据集旨在提升视觉文本生成性能，提供更丰富的训练资源，聚焦于视觉和文本元素。

TextHarmony通过融合视觉文本的理解和生成能力，采用ViT、MLLM和Diffusion Model的组合架构来实现统一感知。

TextHarmony采用两阶段训练方法，首先构建基础的文本和图像生成能力，然后进行统一微调以获得多模态理解与生成能力。

🏷️