handsomestwei
Preview Image

BIRCH平衡迭代削减聚类层次算法简介

BIRCH平衡迭代削减聚类层次算法简介 流式与实时聚类:使用 BIRCH 时不必一次加载全量数据;样本按流或按批持续到达,算法只维护有界大小的中间状态——CF 树及其上的聚类特征——并对每条或每批样本执行增量更新。在此形态下,可在数据不断写入的同时完成聚类或准实时聚类。 一、算法定位与全称 BIRCH(Balanced Iterative Reducing and Clusteri...

Preview Image

基于主次特征的群体聚类方案

基于主次特征的群体聚类方案 一、背景与问题 在面向风险识别、运营分析或合规筛查等业务时,常需要对人群进行无监督聚类,形成可解释的「群体」标签,供后续策略与展示使用。 业务侧往往具备先验经验: 一类特征更能反映「行为模式」或「活动强度」——例如通行频次、停留相关指标、时间间隔等(下文统称主特征)。 另一类特征更多描述个体属性,对「是否同类行为模式」的区分度相对较弱,但在解释与...

Preview Image

机器学习中类别变量的编码方法总结

机器学习中类别变量的编码方法总结 引言 在做结构化数据训练时,类别特征是非常常见的变量类型。多数模型与数值优化过程依赖数值输入,因此需要把类别转换为可计算的表示。常见路线包括标签编码、独热编码、目标编码以及树模型内置的类别处理等;各种方式在是否引入错误顺序假设、维度、对高基数特征的表达能力和是否易泄露标签上权衡不同。下文对常见做法做简要归纳。 1. 硬编码:Label Enco...