量子位 ·

大模型对语言有自己的理解！MIT论文揭示大模型”思维过程“ | ICML 24

💡 原文中文，约3000字，阅读约需7分钟。

📝

内容提要

MIT的研究发现，大模型通过学习代码文本逐渐掌握了其背后的含义，表明大模型有希望更深入理解语言和世界。研究者通过构建合成数据集训练了一个标准Transformer架构的模型，发现模型经历了胡言乱语、语法习得和语义习得三个阶段。实验结果排除了探测器自己学会语义映射的可能性，进一步证实了生成模型的确掌握了代码的含义。

🎯

关键要点

MIT研究发现大模型通过学习代码文本逐渐掌握其背后的含义。
研究表明大模型有希望更深入理解语言和现实世界。
研究作者为MIT计算机与人工智能实验室的Charles Jin和Martin Rinard教授。
研究构建了合成数据集，使用Karel语言编写程序代码。
模型训练分为三个阶段：胡言乱语、语法习得和语义习得。
在胡言乱语阶段，模型输出程序重复度高，准确率不稳定。
语法习得阶段，模型多样性提高，准确率小幅提升。
语义习得阶段，模型准确率大幅提升，能够完成给定任务。
探测器能够预测程序执行状态，显示模型具备初步推理能力。
实验结果排除了探测器自己学会语义映射的可能性，证实生成模型掌握了代码的含义。

❓

延伸问答

MIT的研究发现大模型如何理解语言的？

MIT的研究发现，大模型通过学习代码文本逐渐掌握其背后的含义，表明它有能力更深入理解语言和现实世界。

大模型的训练过程分为哪几个阶段？

大模型的训练过程分为胡言乱语、语法习得和语义习得三个阶段。

在语义习得阶段，大模型的表现如何？

在语义习得阶段，模型的准确率大幅提升，能够准确完成给定任务，表现出较强的语义理解能力。

研究中使用了什么样的合成数据集？

研究中构建了一个由程序代码及其对应输入输出组成的合成数据集，使用Karel语言编写程序代码。

探测器在研究中起到了什么作用？

探测器用于预测程序执行状态，显示模型具备初步推理能力，并帮助验证模型是否真正理解代码的语义。

研究结果如何排除了探测器自己学会语义映射的可能性？

通过改变程序操作的语义解释规则进行实验，探测器性能显著下降，证明其性能提升是因为生成模型掌握了代码的含义。

🏷️

继续阅读

原华为盘古大模型负责人王云鹤离职创业；苹果硬件负责人启动重大重组；OpenAI联合创始人加入Anthropic
近期多家科技公司高管频繁变动。华为盘古大模型负责人王云鹤离职创业，成立新公司“基元律动”；阿里副总裁张凯夫也离职创业，专注市场行为预测；苹果硬件部门进行重...
LeCun 10亿押注的方向，全球领先视觉大模型团队早已布局
视启未来团队专注于开发隐空间世界模型，推动AI从“看见”向“预见”转变。创始人张磊指出，理解因果关系和物理规律至关重要。团队通过提升物体理解能力，推出全球...
一千台599美元Mac mini替代H100跑大模型：便宜十倍
一千台599美元的Mac mini可以替代昂贵的H100服务器，具有低成本和低功耗的优势。Mac mini的统一内存架构提升了AI模型的运行效率，适合本地...
在自主数据库时代，人类的需求为何不会消失
Percona联合创始人Vadim Tkachenko在会议上指出，未来数据库管理员将转变为数据架构师，日常维护将由自动化和人工智能处理，人类将专注于数据...
亚马逊的新游戏计划：詹姆斯·邦德与人工智能史努比狗
亚马逊正在调整游戏战略，专注于云游戏和休闲游戏，特别是通过Luna平台。公司计划推出以詹姆斯·邦德为主题的游戏，并强调视频游戏与影视内容的结合，旨在吸引更...
在AI工作负载时代如何确保Kubernetes的安全性
Kubernetes的安全性因AI工作负载而变得复杂，传统的集群安全措施已无法应对动态流量。Azure Kubernetes Service（AKS）通过...