基于主次特征的群体聚类方案
基于主次特征的群体聚类方案
基于主次特征的群体聚类方案
一、背景与问题
在面向风险识别、运营分析或合规筛查等业务时,常需要对人群进行无监督聚类,形成可解释的「群体」标签,供后续策略与展示使用。
业务侧往往具备先验经验:
- 一类特征更能反映「行为模式」或「活动强度」——例如通行频次、停留相关指标、时间间隔等(下文统称主特征)。
- 另一类特征更多描述个体属性,对「是否同类行为模式」的区分度相对较弱,但在解释与报表中仍有价值——例如年龄段、民族等(下文统称次特征)。
若将所有特征不加区分地输入同一聚类算法(如基于密度与层次的 HDBSCAN),在默认距离度量下,各维度往往被等量对待(例如经标准化后,欧氏距离对各列贡献相近)。这与「先由行为定义群体,再由属性辅助理解」的业务直觉可能不一致。
因此需要明确两种常见路线:仅主特征驱动分簇(次特征不参与距离),以及两阶段嵌套聚类(主特征先划大类,次特征再在子集内参与细分)。
二、方案一:仅主特征参与聚类,次特征用于统计与展示
2.1 思路
- 聚类输入:仅使用主特征构成特征矩阵,执行 HDBSCAN(或同类密度/层次聚类)。
- 次特征:不参与
fit_predict所用的距离计算,仅在聚类完成后,按簇聚合做描述性统计、分布、可视化(如簇内年龄分布、结构占比、雷达图 profile 等)。
2.2 效果
- 最终簇划分完全由主特征决定;次特征不改变谁与谁被分在同一簇。
- 这是「弱化次特征」最干净的做法:避免类别变量与连续行为变量在同一欧氏空间里被强行可比、或稀释主特征可辨性。
2.3 适用场景
- 业务认定「群体」应以行为同质性为主,人口学差异仅用于解读与运营分层,而不希望其驱动分簇边界。
- 需要向业务方明确:簇标签 = 行为模式标签,属性标签为事后画像。
2.4 实现与配置注意点
- 特征工程阶段即划清列集合:
X_cluster仅含主特征;次特征进入X_profile供聚合。 - 标准化、缺失处理、编码方式(如类别变量)建议仅对参与聚类的列统一设计,避免把未参与聚类的列误传入模型。
- 与「全量特征聚类」相比,文档与接口中应显式区分「聚类特征集」与「画像特征集」,便于审计与复现。
三、方案二:层次化(嵌套)两阶段聚类
3.1 思路
阶段一
- 仅使用主特征做第一次聚类(如 HDBSCAN),得到若干「行为模式」大类,并产生噪声点(若算法支持,如 HDBSCAN 的
-1)。
阶段二
- 在阶段一的每个簇内部(通常先排除或单独处理噪声点),再引入次特征,进行第二次聚类(可为 HDBSCAN、k-means、或基于规则的分裂),得到更细的子簇。
最终可形成「行为大类 → 子群体」的层级结构,便于产品与报表分层展示。
3.2 效果
- 次特征会参与第二阶段的划分,因此会改变「同一行为大类内部」谁与谁仍在同一最终子簇。
- 叙事上常为:先按行为分群,再在同一行为群内按属性结构细分。
3.3 风险与参数
- 子簇样本量随阶段递减,需按簇重设最小簇规模等参数,否则易出现全是噪声、或无法分裂。
- 阶段一噪声点是否进入阶段二、如何合并或单独成类,需业务与工程共同约定。
- 类别变量(如民族)在第二阶段中的编码与权重,建议单独设计,避免与连续主特征混用同一套假设时产生误解。
3.4 常见的两阶段聚类实现案例
以下整理三篇公开资料中的要点,说明「两阶段 / 二阶聚类」在软件实现与行业应用中的常见形态。与本文「主特征 HDBSCAN + 簇内次特征再聚类」在算法与变量角色上并非一一对应,但可对照理解「为何业界习惯把聚类拆成前后两步」。
(1)SPSS 环境下的 Two-Step Cluster(英文教程向)
来源:Two-step Cluster Analysis in SPSS - Explained, Performing, Report
- 定位:探索性分群,适合大样本,可同时纳入连续变量与分类变量,并常结合准则自动估计簇个数。
- 过程概括:被描述为层次法与划分法思路的结合——第一步将数据预聚类为若干小子簇;第二步再对这些子簇做进一步整合,形成最终簇(文中对应层次聚类思路)。
- 距离与准则:连续与分类混合时,可涉及 log-likelihood 与 欧氏距离 等不同设定;簇数选择常参考 BIC / AIC 等信息准则。
- 典型用途:营销分群、社会调查、医疗健康等需要混合类型变量与可解释分群的场景。
(2)网络借贷场景下的「两阶段聚类」
来源:SPSS 用 K 均值、两阶段聚类、RFM 模型在网络借贷研究中的行为规律(节选)
- 问题背景:对平台历史交易与用户行为数据做聚类,以支持借款人 / 出借人行为模式刻画(原文涉及网络借贷业务语境,此处仅抽象方法)。
- 借款人侧:样本中同时存在连续指标与分类变量(如信用等级等),作者选用 SPSS 两阶段聚类,采用对数似然类距离,并借助 BIC/AIC 等自动确定簇数;结果得到若干簇后,再结合业务指标解读各簇活跃度、成功率等差异。
- 与平台规则的关系:文中提到聚类结果未必与平台预设信用档位完全一致,说明无监督分群可能揭示与人工规则不同的行为结构——与「主行为 + 次属性」讨论中「簇定义是否服从业务标签」的问题可对照思考。
- 出借人侧:同文另用 RFM 思路 + K-Means 做细分,体现同一业务里也可按变量类型与分析目的选用不同聚类工具,与本文方案一 / 方案二的分工选择相呼应。
(3)SPSSPRO「二阶聚类」与 BIRCH、CF 树表述
- 算法叙事:二阶聚类(二步聚类)被说明为采用 BIRCH 一类思路——先建聚类特征树(CF Tree)做预聚类,再基于预聚类结果做第二次聚类;文档中提及在联合多元正态等假设下处理定类 + 定量变量。
- 输入输出:一个及以上定类或定量变量,可选簇数;输出为簇数与样本类别标签。
- 簇数确定:示例输出中给出不同簇数下的 BIC 序列、变化量与轮廓系数等,用于判断合适簇数(示例解读中得到约 5 类、轮廓系数约 0.4 量级,视为「尚可」)。
- 结果解读示例:帮助文档用收入、年龄、学历等调研变量举例,说明定量中心与定类分布表如何一起看——哪些维度对分群贡献大。这与本文「阶段一行为、阶段二属性」中第二阶段如何读表解释的诉求类似,但软件内置的两阶流程并不区分「主/次特征」语义,需由业务在变量选择与阶段划分上自行定义。
小结
| 来源类型 | 两阶段在做什么 | 与本文方案的关系 |
|---|---|---|
| SPSS Two-Step 教程 | 预聚类子簇 → 再合成最终簇;混合变量 + BIC/AIC | 体现工业界标准产品中的两阶段聚类 |
| 网络借贷实证(节选) | 混合变量下两阶段聚类 + 业务解读;与 K-Means/RFM 并存 | 体现同一业务多算法、多目的 |
| SPSSPRO 二阶 / BIRCH | CF 树预聚类 → 再聚类;BIC 与轮廓系数 | 体现与 BIRCH 表述一致的两步结构 |
四、两种方案对比
| 维度 | 方案一:主特征聚类 + 次特征仅画像 | 方案二:主特征先聚类 + 簇内次特征再聚类 |
|---|---|---|
| 次特征是否影响分簇 | 否 | 是(仅影响第二阶段子簇) |
| 聚类次数 | 通常 1 次 | 至少 2 次(或等价两阶段) |
| 业务叙事 | 群体 = 行为模式;属性为解释 | 行为大类 + 属性细分 |
| 实现复杂度 | 相对低 | 较高(层级标签、参数、噪声策略) |
本文由作者按照 CC BY 4.0 进行授权
