极道 ·

大模型不只是猜下一个词：猜词猜出了智能的雏形

💡 原文中文，约4300字，阅读约需11分钟。

📝

内容提要

大语言模型（LLM）不仅仅是预测下一个词的工具。虽然其训练任务是词汇预测，但为了提高准确性，模型必须学习语法、常识和推理等深层结构。这些能力使得模型在新场景中展现出智能行为，因此将其简单视为“猜词”是不全面的。

🎯

🔎

大语言模型在训练过程中并非仅仅依赖于词频统计，而是通过不断的猜词任务，逐渐学习到语法、常识和推理等深层结构。这一过程类似于儿童学习语言，模型通过大量的文本数据，自动提取出语言的规律和结构，展现出一定的智能行为。

文章强调，预测与建模是相辅相成的。模型在进行词预测时，内部维持着对话题、风格和逻辑线索的隐式表示。简单地将模型视为“猜词工具”忽视了其在复杂任务中展现出的能力，实际上，模型的智能行为超出了表面的预测。

大模型的能力不仅依赖于其内部的预测机制，还需要外部工具和支架的支持。复杂任务的完成往往需要这些辅助，模型的不足之处并不意味着其智能行为的缺失，而是反映了当前技术的局限性。

❓

大语言模型的主要功能是预测下一个词，但它在此过程中学习了语法、常识和推理等深层结构。

因为为了提高预测准确性，大模型必须学习复杂的语言规律和结构，这使得它在新场景中展现出智能行为。

大模型通过大量的训练数据和猜词任务，自动学习了语法规则，类似于小孩学习语言的过程。

在代码生成中，大模型展示了推理能力，能够理解函数定义、参数和逻辑链条，而不仅仅是词频匹配。

预测与建模是相辅相成的，模型在进行词预测时，内部维持着对话题、风格和逻辑线索的隐式表示。

是的，大模型的能力不仅依赖于其预测机制，还需要外部工具和支架的支持，以完成复杂任务。

🏷️