文本探勘實作 / Text Mining

💡 原文中文,约1900字,阅读约需5分钟。
📝

内容提要

本文介绍了2020年「大数据基本算法」系列课程中的「文本探勘实作」课程内容,包括投影片、大纲、教材和学习单。课程目标是比较不同类型文本的词汇差异规则,并建立预测不同类型文本的分类器。教材使用了Jieba-JS断词分析器和Weka软件。学习单提供了一系列数据集供实际应用。课程分为使用Jieba-JS进行中文断词、文本字符串向量化和在Weka中应用三个部分。还提到了在Colab中使用Python重新实现整个过程的「解释性文本探勘」课程。本文提供了丰富的资源和课程内容,帮助读者学习文本探勘技术,发现规律并进行分析。

🎯

关键要点

  • 本文介绍了2020年「大数据基本算法」系列课程中的「文本探勘实作」课程内容。
  • 课程目标是比较不同类型文本的词汇差异规则,并建立预测不同类型文本的分类器。
  • 教材使用了Jieba-JS断词分析器和Weka软件。
  • 学习单提供了一系列数据集供实际应用。
  • 课程分为三个部分:使用Jieba-JS进行中文断词、文本字符串向量化和在Weka中应用。
  • 提到在Colab中使用Python重新实现整个过程的「解释性文本探勘」课程。
  • 课程中使用热点分析进行比较,强调了Weka设置的复杂性。
  • 2023年准备了「解释性文字探勘」课程,以简化操作流程。
  • 文本探勘的应用有多种组合,基本的分群、分类和关联规则可以展现多种分析方式。
  • 文章提供了丰富的资源和课程内容,帮助读者学习文本探勘技术,发现规律并进行分析。
➡️

继续阅读