LLM 调研(2)- 涌现能力
原文中文,约2700字,阅读约需7分钟。发表于: 。...实际上,LLM 从构建到使用是三个步骤: 1. 我们给 LLM 灌的海量语料,就类似于程序的源代码; 2. 我们构建 LLM ,类似于对语料进行了「gcc -Ofast」[^6]的编译,生成了一个根据输入产生输出的程序; 3. 然后我们看到 LLM 输出的句子,其实又是在自己的经验、认知、上下文里面做了扩展,赋予了自己的解释和含义; LLM...
本文讨论了大型语言模型的涌现能力,即在大模型中出现但在小模型中不存在的能力。虽然有很多论文讨论了各种各样的涌现能力,但这些能力的不可解释和不可预测性使得一些科技领袖担心这种技术的发展。然而,LLM还不具备人类的心智层面的能力,输出有时对、有时错、有时荒谬,但没有意义。因此,LLM可以用于写会议纪要或者写段代码,但对于文学作品等需要保留每个字的意义的领域,LLM的输出可能不够。