鐵達尼號生存者資料集 / Dataset: Titanic Survived

💡 原文中文,约1700字,阅读约需4分钟。
📝

内容提要

這篇文章介紹了一個改編自Kaggle的鐵達尼號生存者資料集,供機器學習練習使用。資料集分為訓練集和測試集,訓練集包含每位乘客是否存活的結果,而測試集則用於評估模型的表現。資料集中的屬性包括乘客編號、船票等級、名字、性別、年齡、船上的兄弟姐妹、配偶人數、船上的父母、孩子的人數、船票編號、乘客票價、客艙編號和登船港口等。文章最後提出了一個問題:哪些屬性是影響乘客存活的關鍵因素?

🎯

关键要点

  • 這份資料集改編自Kaggle的鐵達尼號生存者資料集,供機器學習練習使用。
  • 資料集分為訓練集和測試集,訓練集包含每位乘客是否存活的結果。
  • 測試集用於評估模型的表現,原本不告訴乘客是否存活。
  • 訓練集包含890個案例,測試集包含418個案例。
  • 資料集中的屬性包括乘客編號、船票等級、名字、性別、年齡等。
  • 部分屬性存在缺失值,建立模型時需特別處理。
  • 目標屬性是乘客是否成功生還。
  • 文章提出問題:哪些屬性影響乘客存活?
  • 可能的影響因素包括船票等級、性別、年齡和登船港口等。
  • 邀請讀者分享對影響存活因素的看法。
➡️

继续阅读