特征工程

特征工程

💡 原文中文,约1600字,阅读约需4分钟。
📝

内容提要

文章讨论了数据清洗、特征构建和特征选择的技术。缺失值处理包括填充和无效值识别。特征构建涉及单特征处理、特征组合和扩散,并比较了DNN、SVR、RF和GBM等模型的表现。特征选择方法包括过滤法、包装法和嵌入法,强调模型的稳定性和解释性。

🎯

关键要点

  • 数据清洗包括缺失值处理和无效值识别。

  • 缺失值处理方法有填充0、均值和中位数。

  • 无效值的识别包括只有一个取值和无区分度的特征。

  • 特征构建包括单特征处理、特征组合和特征扩散。

  • 单特征处理方法有label encoder、oneHot encoder和target encoder。

  • 特征组合方法包括统计特征和多项式特征。

  • 不同模型(DNN、SVR、RF、GBM)在特征构建上的表现不同。

  • DNN在特征构建能力上表现最好,SVR表现最差。

  • 特征选择方法包括过滤法、包装法和嵌入法。

  • 过滤法通过IV值评估单特征的区分度。

  • 包装法通过特征的加入和删除观察模型指标变化。

  • 嵌入法关注特征权重,并考虑引入正则化。

  • 特征相关性分析方法包括主成分分析、相似度和聚类。

延伸问答

数据清洗的主要步骤有哪些?

数据清洗主要包括缺失值处理和无效值识别。

缺失值处理有哪些常用方法?

常用的缺失值处理方法有填充0、均值和中位数。

特征构建的主要方法是什么?

特征构建主要包括单特征处理、特征组合和特征扩散。

不同模型在特征构建上的表现如何?

DNN在特征构建能力上表现最好,SVR表现最差,RF和GBM表现相似。

特征选择的方法有哪些?

特征选择的方法包括过滤法、包装法和嵌入法。

过滤法在特征选择中如何评估特征?

过滤法通过IV值评估单特征的区分度。

➡️

继续阅读