量子位 ·

别争了！香农老婆，才是世界上第一个大语言模型

💡 原文中文，约4300字，阅读约需11分钟。

📝

内容提要

香农与妻子贝蒂的实验展示了语言的可预测性与信息压缩之间的关系。贝蒂通过猜字母帮助香农记录可预测的部分，从而实现信息压缩。香农研究了语言的熵，揭示了信息量与预测能力的联系。大语言模型通过学习语言规律，能够有效预测下一个符号，体现了智能的特征。

🎯

🔎

香农与贝蒂的实验不仅揭示了语言的可预测性，还为信息论奠定了基础。通过这种实验，香农展示了如何利用人类的预测能力来实现信息压缩，这一理念在现代大语言模型的构建中依然适用。理解这一点有助于我们更好地认识语言模型如何处理和生成文本。

香农的实验表明，人类在语言预测中的灵活性与机器学习模型的局限性形成对比。尽管大语言模型能够通过大量数据学习语言规律，但它们仍然无法完全模拟人类的直觉和上下文理解。这一差异提醒我们在使用AI时要考虑其局限性，尤其是在复杂的语言环境中。

文章中提到的熵概念对于理解信息量至关重要。熵越低，表示系统越可预测，信息量越小；熵越高，则信息量越大。这一理论不仅适用于语言模型的训练，也可以应用于其他领域，如数据压缩和信号处理，帮助我们更有效地处理信息。

❓

香农和贝蒂的实验展示了语言的可预测性与信息压缩之间的关系，表明可预测性允许信息压缩。

熵是衡量系统可预测性的指标，熵越低，系统越容易预测，越好压缩。

大语言模型通过学习语言规律，能够有效预测下一个符号，体现了智能的特征。

香农的实验为后来的信息论研究提供了基础，尤其是在预测和压缩的关系上，推动了对语言信息量的理解。

贝蒂通过猜字母帮助香农记录可预测的部分，从而实现信息压缩。

一种压缩方式的好坏可以通过压缩后的信息长度来判断，越短越好，说明冗余越少。

🏷️