文章

基于主次特征的群体聚类方案

基于主次特征的群体聚类方案

基于主次特征的群体聚类方案

一、背景与问题

在面向风险识别、运营分析或合规筛查等业务时,常需要对人群进行无监督聚类,形成可解释的「群体」标签,供后续策略与展示使用。

业务侧往往具备先验经验

  • 一类特征更能反映「行为模式」或「活动强度」——例如通行频次、停留相关指标、时间间隔等(下文统称主特征)。
  • 另一类特征更多描述个体属性,对「是否同类行为模式」的区分度相对较弱,但在解释与报表中仍有价值——例如年龄段、民族等(下文统称次特征)。

若将所有特征不加区分地输入同一聚类算法(如基于密度与层次的 HDBSCAN),在默认距离度量下,各维度往往被等量对待(例如经标准化后,欧氏距离对各列贡献相近)。这与「先由行为定义群体,再由属性辅助理解」的业务直觉可能不一致。

因此需要明确两种常见路线:仅主特征驱动分簇(次特征不参与距离),以及两阶段嵌套聚类(主特征先划大类,次特征再在子集内参与细分)。


二、方案一:仅主特征参与聚类,次特征用于统计与展示

2.1 思路

  • 聚类输入:仅使用主特征构成特征矩阵,执行 HDBSCAN(或同类密度/层次聚类)。
  • 次特征不参与 fit_predict 所用的距离计算,仅在聚类完成后,按簇聚合做描述性统计、分布、可视化(如簇内年龄分布、结构占比、雷达图 profile 等)。

2.2 效果

  • 最终簇划分完全由主特征决定;次特征不改变谁与谁被分在同一簇。
  • 这是「弱化次特征」最干净的做法:避免类别变量与连续行为变量在同一欧氏空间里被强行可比、或稀释主特征可辨性。

2.3 适用场景

  • 业务认定「群体」应以行为同质性为主,人口学差异仅用于解读与运营分层,而不希望其驱动分簇边界。
  • 需要向业务方明确:簇标签 = 行为模式标签,属性标签为事后画像

2.4 实现与配置注意点

  • 特征工程阶段即划清列集合X_cluster 仅含主特征;次特征进入 X_profile 供聚合。
  • 标准化、缺失处理、编码方式(如类别变量)建议仅对参与聚类的列统一设计,避免把未参与聚类的列误传入模型。
  • 与「全量特征聚类」相比,文档与接口中应显式区分「聚类特征集」与「画像特征集」,便于审计与复现。

三、方案二:层次化(嵌套)两阶段聚类

3.1 思路

阶段一

  • 仅使用主特征做第一次聚类(如 HDBSCAN),得到若干「行为模式」大类,并产生噪声点(若算法支持,如 HDBSCAN 的 -1)。

阶段二

  • 在阶段一的每个簇内部(通常先排除或单独处理噪声点),再引入次特征,进行第二次聚类(可为 HDBSCAN、k-means、或基于规则的分裂),得到更细的子簇

最终可形成「行为大类 → 子群体」的层级结构,便于产品与报表分层展示。

3.2 效果

  • 次特征会参与第二阶段的划分,因此会改变「同一行为大类内部」谁与谁仍在同一最终子簇
  • 叙事上常为:先按行为分群,再在同一行为群内按属性结构细分

3.3 风险与参数

  • 子簇样本量随阶段递减,需按簇重设最小簇规模等参数,否则易出现全是噪声、或无法分裂。
  • 阶段一噪声点是否进入阶段二、如何合并或单独成类,需业务与工程共同约定。
  • 类别变量(如民族)在第二阶段中的编码与权重,建议单独设计,避免与连续主特征混用同一套假设时产生误解。

3.4 常见的两阶段聚类实现案例

以下整理三篇公开资料中的要点,说明「两阶段 / 二阶聚类」在软件实现与行业应用中的常见形态。与本文「主特征 HDBSCAN + 簇内次特征再聚类」在算法与变量角色上并非一一对应,但可对照理解「为何业界习惯把聚类拆成前后两步」。

(1)SPSS 环境下的 Two-Step Cluster(英文教程向)

来源:Two-step Cluster Analysis in SPSS - Explained, Performing, Report

  • 定位:探索性分群,适合大样本,可同时纳入连续变量与分类变量,并常结合准则自动估计簇个数
  • 过程概括:被描述为层次法与划分法思路的结合——第一步将数据预聚类为若干小子簇;第二步再对这些子簇做进一步整合,形成最终簇(文中对应层次聚类思路)。
  • 距离与准则:连续与分类混合时,可涉及 log-likelihood欧氏距离 等不同设定;簇数选择常参考 BIC / AIC 等信息准则。
  • 典型用途:营销分群、社会调查、医疗健康等需要混合类型变量可解释分群的场景。

(2)网络借贷场景下的「两阶段聚类」

来源:SPSS 用 K 均值、两阶段聚类、RFM 模型在网络借贷研究中的行为规律(节选)

  • 问题背景:对平台历史交易与用户行为数据做聚类,以支持借款人 / 出借人行为模式刻画(原文涉及网络借贷业务语境,此处仅抽象方法)。
  • 借款人侧:样本中同时存在连续指标分类变量(如信用等级等),作者选用 SPSS 两阶段聚类,采用对数似然类距离,并借助 BIC/AIC自动确定簇数;结果得到若干簇后,再结合业务指标解读各簇活跃度、成功率等差异。
  • 与平台规则的关系:文中提到聚类结果未必与平台预设信用档位完全一致,说明无监督分群可能揭示与人工规则不同的行为结构——与「主行为 + 次属性」讨论中「簇定义是否服从业务标签」的问题可对照思考。
  • 出借人侧:同文另用 RFM 思路 + K-Means 做细分,体现同一业务里也可按变量类型与分析目的选用不同聚类工具,与本文方案一 / 方案二的分工选择相呼应。

(3)SPSSPRO「二阶聚类」与 BIRCH、CF 树表述

来源:二阶聚类 - SPSSPRO 帮助中心

  • 算法叙事:二阶聚类(二步聚类)被说明为采用 BIRCH 一类思路——先建聚类特征树(CF Tree)做预聚类,再基于预聚类结果做第二次聚类;文档中提及在联合多元正态等假设下处理定类 + 定量变量。
  • 输入输出:一个及以上定类或定量变量,可选簇数;输出为簇数与样本类别标签。
  • 簇数确定:示例输出中给出不同簇数下的 BIC 序列、变化量与轮廓系数等,用于判断合适簇数(示例解读中得到约 5 类、轮廓系数约 0.4 量级,视为「尚可」)。
  • 结果解读示例:帮助文档用收入、年龄、学历等调研变量举例,说明定量中心定类分布表如何一起看——哪些维度对分群贡献大。这与本文「阶段一行为、阶段二属性」中第二阶段如何读表解释的诉求类似,但软件内置的两阶流程并不区分「主/次特征」语义,需由业务在变量选择与阶段划分上自行定义。

小结

来源类型两阶段在做什么与本文方案的关系
SPSS Two-Step 教程预聚类子簇 → 再合成最终簇;混合变量 + BIC/AIC体现工业界标准产品中的两阶段聚类
网络借贷实证(节选)混合变量下两阶段聚类 + 业务解读;与 K-Means/RFM 并存体现同一业务多算法、多目的
SPSSPRO 二阶 / BIRCHCF 树预聚类 → 再聚类;BIC 与轮廓系数体现与 BIRCH 表述一致的两步结构

四、两种方案对比

维度方案一:主特征聚类 + 次特征仅画像方案二:主特征先聚类 + 簇内次特征再聚类
次特征是否影响分簇(仅影响第二阶段子簇)
聚类次数通常 1 次至少 2 次(或等价两阶段)
业务叙事群体 = 行为模式;属性为解释行为大类 + 属性细分
实现复杂度相对低较高(层级标签、参数、噪声策略)
本文由作者按照 CC BY 4.0 进行授权