布丁布丁吃什麼？ ·

文本探勘實作 / Text Mining

💡 原文中文，约1900字，阅读约需5分钟。

📝

内容提要

本文介绍了2020年「大数据基本算法」系列课程中的「文本探勘实作」课程内容，包括投影片、大纲、教材和学习单。课程目标是比较不同类型文本的词汇差异规则，并建立预测不同类型文本的分类器。教材使用了Jieba-JS断词分析器和Weka软件。学习单提供了一系列数据集供实际应用。课程分为使用Jieba-JS进行中文断词、文本字符串向量化和在Weka中应用三个部分。还提到了在Colab中使用Python重新实现整个过程的「解释性文本探勘」课程。本文提供了丰富的资源和课程内容，帮助读者学习文本探勘技术，发现规律并进行分析。

🎯

关键要点

本文介绍了2020年「大数据基本算法」系列课程中的「文本探勘实作」课程内容。
课程目标是比较不同类型文本的词汇差异规则，并建立预测不同类型文本的分类器。
教材使用了Jieba-JS断词分析器和Weka软件。
学习单提供了一系列数据集供实际应用。
课程分为三个部分：使用Jieba-JS进行中文断词、文本字符串向量化和在Weka中应用。
提到在Colab中使用Python重新实现整个过程的「解释性文本探勘」课程。
课程中使用热点分析进行比较，强调了Weka设置的复杂性。
2023年准备了「解释性文字探勘」课程，以简化操作流程。
文本探勘的应用有多种组合，基本的分群、分类和关联规则可以展现多种分析方式。
文章提供了丰富的资源和课程内容，帮助读者学习文本探勘技术，发现规律并进行分析。

🏷️

文本探勘實作 / Text Mining

内容提要

关键要点

标签

继续阅读