量子位 ·

人类秒懂，AI崩溃：一个简单测试，就让GPT-5、Gemini等顶级模型集体“翻车”

💡 原文中文，约1300字，阅读约需3分钟。

📝

内容提要

研究表明，顶级AI模型如GPT-5和Gemini在处理“看得见但读不懂”的文字时表现不佳，缺乏符号分割与组合机制导致其无法理解人类易懂的文本。这一现象凸显了AI在教育和无障碍应用中的挑战，需重新审视视觉与文本的整合方式。

🎯

🔎

研究表明，顶级AI模型在处理复杂文本时存在显著局限性。这些模型依赖模式匹配，而非理解文字结构，导致在面对经过切割和重组的文本时表现不佳。这一现象提醒我们，AI在教育和无障碍应用中的有效性可能受到限制，尤其是在处理非标准文本时。

人类的阅读理解能力依赖于多重感知与推理，而AI则缺乏这种综合能力。研究显示，即使是最新的AI模型，在面对简单的视觉干扰时也无法正确识别文本。这种差异不仅影响AI的应用场景，也提示我们在设计AI系统时需考虑人类的认知特点。

为了提升AI的韧性，研究团队建议重新思考视觉与文本的整合方式。这可能包括使用新的训练数据和更注重符号分割的结构先验。未来的研究应关注如何让AI更好地理解和处理复杂的文本结构，以便在实际应用中更有效。

❓

顶级AI模型如GPT-5和Gemini在处理文字时表现不佳，主要是因为它们缺乏符号分割与组合机制，只能依赖模式匹配，无法理解文字结构。

VYU团队设计了两个实验：一个是将四字成语的汉字切割并重组，另一个是将八字母英文单词的前后两半用不同颜色叠加。

人类依赖结构先验理解文字，而AI将文字视为图片模式，缺乏对文字结构的理解能力。

这一现象表明AI在教育和无障碍应用中可能无法正确识别非标准文本，影响其实际应用效果。

VYU团队建议重新思考视觉与文本的整合方式，可能需要新的训练数据和更注重分割的结构先验。

AI在处理非标准文本时可能无法正确识别，导致在历史文献和科学笔记整理中出现错误，甚至可能被攻击者利用。

🏷️