這篇文章介紹了一份資料集,內容改編自Kaggle上TEDANCE WSDM發佈的假新聞分類資料集,資料集由中國的ByteDance機構收集,包含2000份標題,分為真假新聞,提供了「news_title」和「is_fake」兩個屬性。作者思考了標題判斷真假新聞的可行性,並提出讀者問題,探討是否能單靠標題辨別假新聞。資料集來自可信的資料來源,適合用於訓練機器學習模型。文章邀請讀者分享意見,增加了趣味性。
該資料集是從Sakar與Kastro在2018年發佈的線上購物顧客購買意圖資料集中改編而來,共有12330筆購物行為記錄,屬性包括使用者的造訪次數、時間、聯絡資訊網頁的次數和時間、產品相關網頁的次數和時間等。該資料集可用於機器學習練習,探索使用者行為與購物意圖之間的關聯。
這份資料集是從1996年的人口普查收入資料集改編而來,用於機器學習練習。包含訓練集和測試集,用於建立模型和驗證。屬性包括年齡、工作單位類型、教育程度、性別等。目標屬性是判斷年薪是否超過5萬美元。最有可能影響年薪的屬性是年齡、工作單位類型、教育程度、性別。
本文比較了在解釋性多元迴歸分析中,虛擬變項設為「0與1」或是「1與2」對結果的影響,結果顯示兩者沒有差別。重要的是要將類別變項的測量改成「名義」。此外,本文提供了PSPP的使用方法和兩份資料集的比較分析。
完成下面两步后,将自动完成登录并继续当前操作。