這篇文章介紹了一份資料集,內容改編自Kaggle上TEDANCE WSDM發佈的假新聞分類資料集,資料集由中國的ByteDance機構收集,包含2000份標題,分為真假新聞,提供了「news_title」和「is_fake」兩個屬性。作者思考了標題判斷真假新聞的可行性,並提出讀者問題,探討是否能單靠標題辨別假新聞。資料集來自可信的資料來源,適合用於訓練機器學習模型。文章邀請讀者分享意見,增加了趣味性。
這篇文章介紹了一個改編自Kaggle的鐵達尼號生存者資料集,供機器學習練習使用。資料集分為訓練集和測試集,訓練集包含每位乘客是否存活的結果,而測試集則用於評估模型的表現。資料集中的屬性包括乘客編號、船票等級、名字、性別、年齡、船上的兄弟姐妹、配偶人數、船上的父母、孩子的人數、船票編號、乘客票價、客艙編號和登船港口等。文章最後提出了一個問題:哪些屬性是影響乘客存活的關鍵因素?
該資料集是從Sakar與Kastro在2018年發佈的線上購物顧客購買意圖資料集中改編而來,共有12330筆購物行為記錄,屬性包括使用者的造訪次數、時間、聯絡資訊網頁的次數和時間、產品相關網頁的次數和時間等。該資料集可用於機器學習練習,探索使用者行為與購物意圖之間的關聯。
這份資料集是從1996年的人口普查收入資料集改編而來,用於機器學習練習。包含訓練集和測試集,用於建立模型和驗證。屬性包括年齡、工作單位類型、教育程度、性別等。目標屬性是判斷年薪是否超過5萬美元。最有可能影響年薪的屬性是年齡、工作單位類型、教育程度、性別。
完成下面两步后,将自动完成登录并继续当前操作。