小红花·文摘

本文介绍了基于扩散模型的多语言视觉文本生成模型 AnyText，利用 OCR 和扩散管道生成准确文本。研究了多语言文本到图像生成及神经机器翻译的作用，并提出 Ensemble Adapter 方案以提升性能。此外，探讨了交互式文本到图像生成（iT2I）与大语言模型（LLM）的结合，旨在改善人机交互体验和图像质量。