基于主次特征的群体聚类方案

发表于 2026/04/13

作者 handsomestwei

13 分钟阅读

基于主次特征的群体聚类方案

一、背景与问题

在面向风险识别、运营分析或合规筛查等业务时，常需要对人群进行无监督聚类，形成可解释的「群体」标签，供后续策略与展示使用。

业务侧往往具备先验经验：

一类特征更能反映「行为模式」或「活动强度」——例如通行频次、停留相关指标、时间间隔等（下文统称主特征）。
另一类特征更多描述个体属性，对「是否同类行为模式」的区分度相对较弱，但在解释与报表中仍有价值——例如年龄段、民族等（下文统称次特征）。

若将所有特征不加区分地输入同一聚类算法（如基于密度与层次的 HDBSCAN），在默认距离度量下，各维度往往被等量对待（例如经标准化后，欧氏距离对各列贡献相近）。这与「先由行为定义群体，再由属性辅助理解」的业务直觉可能不一致。

因此需要明确两种常见路线：仅主特征驱动分簇（次特征不参与距离），以及两阶段嵌套聚类（主特征先划大类，次特征再在子集内参与细分）。

二、方案一：仅主特征参与聚类，次特征用于统计与展示

2.1 思路

聚类输入：仅使用主特征构成特征矩阵，执行 HDBSCAN（或同类密度/层次聚类）。
次特征：不参与 fit_predict 所用的距离计算，仅在聚类完成后，按簇聚合做描述性统计、分布、可视化（如簇内年龄分布、结构占比、雷达图 profile 等）。

2.2 效果

最终簇划分完全由主特征决定；次特征不改变谁与谁被分在同一簇。
这是「弱化次特征」最干净的做法：避免类别变量与连续行为变量在同一欧氏空间里被强行可比、或稀释主特征可辨性。

2.3 适用场景

业务认定「群体」应以行为同质性为主，人口学差异仅用于解读与运营分层，而不希望其驱动分簇边界。
需要向业务方明确：簇标签 = 行为模式标签，属性标签为事后画像。

2.4 实现与配置注意点

特征工程阶段即划清列集合：X_cluster 仅含主特征；次特征进入 X_profile 供聚合。
标准化、缺失处理、编码方式（如类别变量）建议仅对参与聚类的列统一设计，避免把未参与聚类的列误传入模型。
与「全量特征聚类」相比，文档与接口中应显式区分「聚类特征集」与「画像特征集」，便于审计与复现。

三、方案二：层次化（嵌套）两阶段聚类

3.1 思路

阶段一

仅使用主特征做第一次聚类（如 HDBSCAN），得到若干「行为模式」大类，并产生噪声点（若算法支持，如 HDBSCAN 的 -1）。

阶段二

在阶段一的每个簇内部（通常先排除或单独处理噪声点），再引入次特征，进行第二次聚类（可为 HDBSCAN、k-means、或基于规则的分裂），得到更细的子簇。

最终可形成「行为大类 → 子群体」的层级结构，便于产品与报表分层展示。

3.2 效果

次特征会参与第二阶段的划分，因此会改变「同一行为大类内部」谁与谁仍在同一最终子簇。
叙事上常为：先按行为分群，再在同一行为群内按属性结构细分。

3.3 风险与参数

子簇样本量随阶段递减，需按簇重设最小簇规模等参数，否则易出现全是噪声、或无法分裂。
阶段一噪声点是否进入阶段二、如何合并或单独成类，需业务与工程共同约定。
类别变量（如民族）在第二阶段中的编码与权重，建议单独设计，避免与连续主特征混用同一套假设时产生误解。

3.4 常见的两阶段聚类实现案例

以下整理三篇公开资料中的要点，说明「两阶段 / 二阶聚类」在软件实现与行业应用中的常见形态。与本文「主特征 HDBSCAN + 簇内次特征再聚类」在算法与变量角色上并非一一对应，但可对照理解「为何业界习惯把聚类拆成前后两步」。

（1）SPSS 环境下的 Two-Step Cluster（英文教程向）

来源：Two-step Cluster Analysis in SPSS - Explained, Performing, Report

定位：探索性分群，适合大样本，可同时纳入连续变量与分类变量，并常结合准则自动估计簇个数。
过程概括：被描述为层次法与划分法思路的结合——第一步将数据预聚类为若干小子簇；第二步再对这些子簇做进一步整合，形成最终簇（文中对应层次聚类思路）。
距离与准则：连续与分类混合时，可涉及 log-likelihood 与 欧氏距离 等不同设定；簇数选择常参考 BIC / AIC 等信息准则。
典型用途：营销分群、社会调查、医疗健康等需要混合类型变量与可解释分群的场景。

（2）网络借贷场景下的「两阶段聚类」

来源：SPSS 用 K 均值、两阶段聚类、RFM 模型在网络借贷研究中的行为规律（节选）

问题背景：对平台历史交易与用户行为数据做聚类，以支持借款人 / 出借人行为模式刻画（原文涉及网络借贷业务语境，此处仅抽象方法）。
借款人侧：样本中同时存在连续指标与分类变量（如信用等级等），作者选用 SPSS 两阶段聚类，采用对数似然类距离，并借助 BIC/AIC 等自动确定簇数；结果得到若干簇后，再结合业务指标解读各簇活跃度、成功率等差异。
与平台规则的关系：文中提到聚类结果未必与平台预设信用档位完全一致，说明无监督分群可能揭示与人工规则不同的行为结构——与「主行为 + 次属性」讨论中「簇定义是否服从业务标签」的问题可对照思考。
出借人侧：同文另用 RFM 思路 + K-Means 做细分，体现同一业务里也可按变量类型与分析目的选用不同聚类工具，与本文方案一 / 方案二的分工选择相呼应。

（3）SPSSPRO「二阶聚类」与 BIRCH、CF 树表述

来源：二阶聚类 - SPSSPRO 帮助中心

算法叙事：二阶聚类（二步聚类）被说明为采用 BIRCH 一类思路——先建聚类特征树（CF Tree）做预聚类，再基于预聚类结果做第二次聚类；文档中提及在联合多元正态等假设下处理定类 + 定量变量。
输入输出：一个及以上定类或定量变量，可选簇数；输出为簇数与样本类别标签。
簇数确定：示例输出中给出不同簇数下的 BIC 序列、变化量与轮廓系数等，用于判断合适簇数（示例解读中得到约 5 类、轮廓系数约 0.4 量级，视为「尚可」）。
结果解读示例：帮助文档用收入、年龄、学历等调研变量举例，说明定量中心与定类分布表如何一起看——哪些维度对分群贡献大。这与本文「阶段一行为、阶段二属性」中第二阶段如何读表解释的诉求类似，但软件内置的两阶流程并不区分「主/次特征」语义，需由业务在变量选择与阶段划分上自行定义。

小结

来源类型	两阶段在做什么	与本文方案的关系
SPSS Two-Step 教程	预聚类子簇 → 再合成最终簇；混合变量 + BIC/AIC	体现工业界标准产品中的两阶段聚类
网络借贷实证（节选）	混合变量下两阶段聚类 + 业务解读；与 K-Means/RFM 并存	体现同一业务多算法、多目的
SPSSPRO 二阶 / BIRCH	CF 树预聚类 → 再聚类；BIC 与轮廓系数	体现与 BIRCH 表述一致的两步结构

四、两种方案对比

维度	方案一：主特征聚类 + 次特征仅画像	方案二：主特征先聚类 + 簇内次特征再聚类
次特征是否影响分簇	否	是（仅影响第二阶段子簇）
聚类次数	通常 1 次	至少 2 次（或等价两阶段）
业务叙事	群体 = 行为模式；属性为解释	行为大类 + 属性细分
实现复杂度	相对低	较高（层级标签、参数、噪声策略）

AI, ML

AI ML 聚类

本文由作者按照 CC BY 4.0 进行授权

基于主次特征的群体聚类方案

一、背景与问题

二、方案一：仅主特征参与聚类，次特征用于统计与展示

2.1 思路

2.2 效果

2.3 适用场景

2.4 实现与配置注意点

三、方案二：层次化（嵌套）两阶段聚类

3.1 思路

3.2 效果

3.3 风险与参数

3.4 常见的两阶段聚类实现案例

（1）SPSS 环境下的 Two-Step Cluster（英文教程向）

（2）网络借贷场景下的「两阶段聚类」

（3）SPSSPRO「二阶聚类」与 BIRCH、CF 树表述

小结

四、两种方案对比

热门标签