小红花·文摘 - 小红花技术领袖俱乐部

這篇文章介紹了一份資料集，內容改編自Kaggle上TEDANCE WSDM發佈的假新聞分類資料集，資料集由中國的ByteDance機構收集，包含2000份標題，分為真假新聞，提供了「news_title」和「is_fake」兩個屬性。作者思考了標題判斷真假新聞的可行性，並提出讀者問題，探討是否能單靠標題辨別假新聞。資料集來自可信的資料來源，適合用於訓練機器學習模型。文章邀請讀者分享意見，增加了趣味性。

中文假新聞判斷資料集 / Dataset: Chinese Fake News

布丁布丁吃什麼？ ·

該資料集是從Sakar與Kastro在2018年發佈的線上購物顧客購買意圖資料集中改編而來，共有12330筆購物行為記錄，屬性包括使用者的造訪次數、時間、聯絡資訊網頁的次數和時間、產品相關網頁的次數和時間等。該資料集可用於機器學習練習，探索使用者行為與購物意圖之間的關聯。

線上購物資料集 / Dataset: Online Shopping

布丁布丁吃什麼？ ·

這份資料集是從1996年的人口普查收入資料集改編而來，用於機器學習練習。包含訓練集和測試集，用於建立模型和驗證。屬性包括年齡、工作單位類型、教育程度、性別等。目標屬性是判斷年薪是否超過5萬美元。最有可能影響年薪的屬性是年齡、工作單位類型、教育程度、性別。

收入普查資料集 / Dataset: Census Income

布丁布丁吃什麼？ ·

本文比較了在解釋性多元迴歸分析中，虛擬變項設為「0與1」或是「1與2」對結果的影響，結果顯示兩者沒有差別。重要的是要將類別變項的測量改成「名義」。此外，本文提供了PSPP的使用方法和兩份資料集的比較分析。

虛擬變項設0,1跟1,2有差別嗎？ / Is There Any Difference between Setting 0,1 and 1,2 for the Dummy Variable?

布丁布丁吃什麼？ ·