文本探勘實作 / Text Mining
原文中文,约1900字,阅读约需5分钟。发表于: 。這是我在2020年「大數據基本演算」系列課程中教授的「文本探勘實作」課程內容。以下是投影片跟相關教材的整理,供有需要的朋友參考。 投影片 /...
本文介绍了2020年「大数据基本算法」系列课程中的「文本探勘实作」课程内容,包括投影片、大纲、教材和学习单。课程目标是比较不同类型文本的词汇差异规则,并建立预测不同类型文本的分类器。教材使用了Jieba-JS断词分析器和Weka软件。学习单提供了一系列数据集供实际应用。课程分为使用Jieba-JS进行中文断词、文本字符串向量化和在Weka中应用三个部分。还提到了在Colab中使用Python重新实现整个过程的「解释性文本探勘」课程。本文提供了丰富的资源和课程内容,帮助读者学习文本探勘技术,发现规律并进行分析。