小红花·文摘

研究发现图像生成模型难以生成优质文本图像的关键在于缺乏字符级输入特征。通过对比字符感知与非字符感知的文本编码，发现字符感知在拼写任务上表现更好。训练的图像生成模型在新文本渲染任务中，字符感知变体优于字符盲模型，尤其在罕见单词上准确率提升超过30%。