MIT News - Artificial intelligence ·

尽管生成性人工智能的输出令人印象深刻，但它对世界并没有连贯的理解

💡 原文英文，约1100词，阅读约需4分钟。

📝

内容提要

大型语言模型在文本生成方面表现优异，但新研究显示它们并未真正理解世界。尽管模型能准确导航纽约市，但在环境变化时表现显著下降。研究者提出新的评估指标，发现随机选择的模型反而构建了更准确的世界模型。这表明当前模型在某些任务上表现良好，但缺乏对规则的理解，未来需探索更复杂的问题。

🎯

关键要点

大型语言模型在文本生成方面表现出色，但并未真正理解世界。
研究发现，尽管模型能准确导航纽约市，但在环境变化时表现显著下降。
研究者提出新的评估指标，发现随机选择的模型构建了更准确的世界模型。
当前模型在某些任务上表现良好，但缺乏对规则的理解。
研究者开发了两种新指标来测试模型的世界模型准确性。
第一种指标是序列区分，第二种是序列压缩。
研究发现，随机选择的变换器形成了更准确的世界模型。
模型在面对环境变化时表现不佳，显示出缺乏对规则的理解。
未来研究将探索更复杂的问题，并将评估指标应用于现实世界的科学问题。

❓

延伸问答

大型语言模型是否真正理解世界？

大型语言模型在文本生成方面表现出色，但研究表明它们并未真正理解世界。

研究发现大型语言模型在环境变化时表现如何？

研究发现，当环境发生变化时，模型的表现显著下降。

研究者提出了哪些新评估指标？

研究者提出了序列区分和序列压缩两种新指标来测试模型的世界模型准确性。

随机选择的模型为何能构建更准确的世界模型？

随机选择的模型可能因为在训练中看到更广泛的潜在下一步而形成了更准确的世界模型。

研究者对未来的研究方向有什么计划？

研究者希望探索更复杂的问题，并将评估指标应用于现实世界的科学问题。

大型语言模型在导航任务中的表现如何？

尽管模型能准确导航纽约市，但在面对街道关闭和绕行时，其表现迅速下降。

🏷️

继续阅读

何恺明首个语言模型：105M参数，不走GPT自回归老路
何恺明团队推出了新的扩散语言模型ELF，该模型采用连续的embedding空间进行文本生成，显著降低了生成困惑度。ELF在训练和采样效率上表现优异，仅用1...
数据质量是人工智能战略
NYU Langone Health通过改进数据收集和管理，推动以数据为驱动的医疗系统。自2017年起，该机构开始现代化数据平台，确保数据质量，统一数据以...
探索马蒂斯的‘野性调色板’：人工智能能否提供与艺术连接的新方式？
SFMOMA的展览《马蒂斯的《戴帽子的女人》：现代丑闻》展示了马蒂斯在1905年巴黎秋季沙龙的首秀。这幅画以非自然主义的色彩和表现手法震惊观众，开启了野兽...
为什么企业人工智能需要定制化
企业在采用人工智能时，应灵活选择不同模型以满足多样化需求。单一模型无法解决所有问题，需根据任务特点匹配合适模型。有效的模型路由和财务控制是成功的关键，确保...
在线教程丨单卡即可爆改，面壁智能等开源MiniCPM-V-4.6，1.3B端侧模型支持图像理解/视频理解/OCR/多轮多模态对话
近年来，AI行业认识到并非所有场景都需使用大型模型。高昂的推理成本和数据隐私风险使得小型模型在实际应用中更具效率。新开源的MiniCPM-V 4.6模型仅...
腾讯Q1《王者荣耀》等长青游戏流水创新高，新品《洛克王国：世界》首月DAU1300万
5月13日，腾讯发布2026年Q1财报，游戏业绩方面，本土市场游戏收入为人民币454亿元，同比增长6%，收入增速滞后于本土市场游戏流水增速，是由于2026...