handsomestwei
Preview Image

机器学习中类别变量的编码方法总结

机器学习中类别变量的编码方法总结 引言 在做结构化数据训练时,类别特征是非常常见的变量类型。多数模型与数值优化过程依赖数值输入,因此需要把类别转换为可计算的表示。常见路线包括标签编码、独热编码、目标编码以及树模型内置的类别处理等;各种方式在是否引入错误顺序假设、维度、对高基数特征的表达能力和是否易泄露标签上权衡不同。下文对常见做法做简要归纳。 1. 硬编码:Label Enco...