💡
原文中文,约1100字,阅读约需3分钟。
📝
内容提要
本文介绍了深度学习中的循环神经网络(RNN)及其在处理序列数据方面的应用。RNN可通过自回归模型和隐变量自回归模型来处理序列数据。文本预处理包括加载文本、拆分为词元、建立词表和转换为数字索引序列。基于深度学习的模型更适合语言建模。
🎯
关键要点
- 循环神经网络(RNN)用于处理序列数据。
- 自回归模型通过固定长度的时间跨度来处理序列数据,参数数量保持不变。
- 隐变量自回归模型通过保留过去观测的总结来更新预测。
- 文本预处理包括加载文本、拆分为词元、建立词表和转换为数字索引序列。
- 词元是文本的基本单位,模型需要数字输入,因此需要将词元映射到数字索引。
- 语料库是对训练集中的唯一词元进行统计的结果,频率低的词元通常被移除。
- 词频遵循齐普夫定律,表明语言中存在结构,适合应用模型。
- 基于深度学习的模型更适合语言建模。
➡️