DEV Community ·

从人工智能到大型语言模型与多模态计算的旅程 - 2 - 大型语言模型的工作原理 — 嵌入、向量与上下文窗口

💡 原文英文，约700词，阅读约需3分钟。

📝

内容提要

本文探讨了大型语言模型（LLMs）的工作原理，包括嵌入、向量空间和上下文窗口。LLMs通过将文本转化为数字表示，利用数学权重预测下一个词。嵌入是表示词义的高维向量，向量搜索用于语义理解。上下文窗口限制了模型处理的令牌数量，影响其记忆能力。尽管LLMs功能强大，但嵌入和上下文窗口仍存在局限性。

🎯

🔎

嵌入是大型语言模型理解语言的基础，它将词语转化为高维向量，便于捕捉语义关系。然而，嵌入并不能完全反映细微的语境变化，如讽刺或语气。因此，在使用LLMs时，需注意其在处理复杂语义时的局限性。

上下文窗口决定了模型一次性处理的令牌数量，影响其记忆能力。较大的上下文窗口可以让模型在对话中保持更多信息，但也可能导致延迟和成本增加。用户在设计输入时应考虑这一点，以优化模型的表现。

向量搜索通过比较嵌入来实现语义理解，能够找到概念上相似的文本，而不仅仅是匹配关键词。这种方法在信息检索和文档相似度分析中具有重要应用，能够提高搜索的准确性和相关性。

❓

大型语言模型通过将文本转化为数字表示，利用数学权重预测下一个词，主要依赖于嵌入、向量空间和上下文窗口。

嵌入是表示词义的高维向量，类似意义的词具有相似的嵌入，帮助模型理解关系和语义。

上下文窗口限制了模型一次性处理的令牌数量，影响其记忆能力和对话的连贯性。

嵌入无法反映细微的语境和持久的记忆，而上下文窗口可能导致长文档被截断或忽略。

向量搜索通过比较嵌入找到概念上相似的文本，而不是仅仅匹配确切的单词。

输入被分割成令牌，然后这些令牌被转换为嵌入，经过多层注意力机制捕捉语义。

🏷️