MachineLearningMastery.com ·

机器学习中编码分类特征的三种智能方法

💡 原文英文，约3400词，阅读约需13分钟。

📝

内容提要

本文介绍了三种将分类特征转换为数值的方法：序数编码适用于有顺序的类别，独热编码适用于无序类别，目标编码通过计算类别的目标均值处理高基数特征。选择合适的方法取决于数据特性和类别数量。

🎯

🔎

在选择编码方法时，需考虑数据的特性和类别的数量。序数编码适合有顺序的类别，而独热编码则适用于无序类别。目标编码虽然能有效处理高基数特征，但需谨慎使用，以避免目标泄露。

独热编码在处理高基数特征时会导致维度膨胀，增加计算复杂度和过拟合风险。因此，在类别数量较多时，考虑使用目标编码或其他降维技术是明智的选择。

目标编码虽然能提高模型的预测能力，但极易导致目标泄露。使用时需确保计算均值时不包含当前行数据，建议采用交叉验证等方法来降低风险。

❓

序数编码是一种将有顺序的类别转换为数值的方法，适用于具有内在等级关系的分类特征，如教育水平或顾客满意度。

独热编码的主要优点是能够避免引入虚假的等级关系，将每个类别转换为独立的二进制列，适用于无序类别。

目标编码通过计算每个类别的目标变量均值，将类别转换为数值，解决了高基数特征的维度问题，减少了特征数量。

使用序数编码时，必须确保类别之间存在明确的顺序关系，避免在无序类别上应用，以免引入错误的等级关系。

独热编码在高基数特征上会导致数据维度急剧增加，形成稀疏矩阵，可能导致训练速度变慢和过拟合问题。

安全实施目标编码需要使用交叉验证，确保在计算类别均值时不使用当前行的目标值，以防止目标泄漏。

🏷️