小红花·文摘 - 小红花技术领袖俱乐部

研究表明，顶级AI模型如GPT-5和Gemini在处理“看得见但读不懂”的文字时表现不佳，缺乏符号分割与组合机制导致其无法理解人类易懂的文本。这一现象凸显了AI在教育和无障碍应用中的挑战，需重新审视视觉与文本的整合方式。

人类秒懂，AI崩溃：一个简单测试，就让GPT-5、Gemini等顶级模型集体“翻车”

量子位 ·

NeurIPS2024 | OCR-Omni来了，字节&华师提出统一的多模态文字理解与生成大模型

NeurIPS2024 | OCR-Omni来了，字节&华师提出统一的多模态文字理解与生成大模型

机器之心 ·

本文提出了一种基于汉字视觉外观的表示方法，利用卷积神经网络有效表征汉字的语义和句法信息。研究探讨了字符级输入特征对文本图像生成的影响，并提出了RenderDiffusion和GlyphControl等新模型，显著提升了视觉文本的生成准确性和美学质量，推动了多模态学习的发展。

通过输入粒度控制和字形感知训练赋能视觉文本生成的主干模型

BriefGPT - AI 论文速递 ·