handsomestwei
Preview Image

Z-score标准化与聚类应用

Z-score标准化与聚类应用 Z-score 标准化(又称标准分)把每个特征上的取值变换为「相对该特征均值偏离了多少个标准差」,使不同量纲、不同尺度的特征在数值上可比。它本身不是聚类「算法」,而是特征预处理中常用的线性尺度变换;在 K-means、高斯混合模型等依赖欧氏距离或二次型距离的聚类前,常与 Min-Max、稳健缩放等方法并列选型。 一、名称由来与在统计中的位置 标准分(...

Preview Image

BIRCH平衡迭代削减聚类层次算法简介

BIRCH平衡迭代削减聚类层次算法简介 流式与实时聚类:使用 BIRCH 时不必一次加载全量数据;样本按流或按批持续到达,算法只维护有界大小的中间状态——CF 树及其上的聚类特征——并对每条或每批样本执行增量更新。在此形态下,可在数据不断写入的同时完成聚类或准实时聚类。 一、算法定位与全称 BIRCH(Balanced Iterative Reducing and Clusteri...

Preview Image

基于主次特征的群体聚类方案

基于主次特征的群体聚类方案 一、背景与问题 在面向风险识别、运营分析或合规筛查等业务时,常需要对人群进行无监督聚类,形成可解释的「群体」标签,供后续策略与展示使用。 业务侧往往具备先验经验: 一类特征更能反映「行为模式」或「活动强度」——例如通行频次、停留相关指标、时间间隔等(下文统称主特征)。 另一类特征更多描述个体属性,对「是否同类行为模式」的区分度相对较弱,但在解释与...

Preview Image

机器学习中类别变量的编码方法总结

机器学习中类别变量的编码方法总结 引言 在做结构化数据训练时,类别特征是非常常见的变量类型。多数模型与数值优化过程依赖数值输入,因此需要把类别转换为可计算的表示。常见路线包括标签编码、独热编码、目标编码以及树模型内置的类别处理等;各种方式在是否引入错误顺序假设、维度、对高基数特征的表达能力和是否易泄露标签上权衡不同。下文对常见做法做简要归纳。 1. 硬编码:Label Enco...