深度学习基础知识(二)

深度学习基础知识(二)

💡 原文中文,约1100字,阅读约需3分钟。
📝

内容提要

本文介绍了深度学习中的循环神经网络(RNN)及其在处理序列数据方面的应用。RNN可通过自回归模型和隐变量自回归模型来处理序列数据。文本预处理包括加载文本、拆分为词元、建立词表和转换为数字索引序列。基于深度学习的模型更适合语言建模。

🎯

关键要点

  • 循环神经网络(RNN)用于处理序列数据。
  • 自回归模型通过固定长度的时间跨度来处理序列数据,参数数量保持不变。
  • 隐变量自回归模型通过保留过去观测的总结来更新预测。
  • 文本预处理包括加载文本、拆分为词元、建立词表和转换为数字索引序列。
  • 词元是文本的基本单位,模型需要数字输入,因此需要将词元映射到数字索引。
  • 语料库是对训练集中的唯一词元进行统计的结果,频率低的词元通常被移除。
  • 词频遵循齐普夫定律,表明语言中存在结构,适合应用模型。
  • 基于深度学习的模型更适合语言建模。
➡️

继续阅读