用户画像分群：增长分析必杀技？( 二 )

研究者在使用聚类分析时应特别注意可能影响结果的各个因素。

异常值和特殊的变量对聚类有较大影响

当分类变量的测量尺度不一致时，需要事先做标准化处理。

聚类分析的弱点：

聚类是一种无监督类分析方法，无法自动发现应该分成多少个类；
期望能很清楚的找到大致相等的类或细分市场是不现实的；
样本聚类，变量之间的关系需要研究者决定；
不会自动给出一个最佳聚类结果。

聚类分析的应用过程：
（1）选择聚类变量
在选取特征的时候，我们会根据一定的假设，尽可能选取对产品使用行为有影响的变量，这些变量一般包含与产品密切相关的用户态度、观点、行为。但是，聚类分析过程对用于聚类的变量还有一定的要求： 1.这些变量在不同研究对象上的值具有明显差异；2.这些变量之间不能存在高度相关。
首先，用于聚类的变量数目不是越多越好，没有明显差异的变量对聚类没有起到实质意义，而且可能使结果产生偏差；其次，高度相关的变量相当于给这些变量进行了加权，等于放大了某方面因素对用户分类的作用。识别合适的聚类变量的方法：1.对变量做聚类分析，从聚得的各类中挑选出一个有代表性的变量；2.做主成份分析或因子分析，产生新的变量作为聚类变量。
【用户画像分群：增长分析必杀技？】（2）聚类分析
相对于聚类前的准备工作，真正的执行过程显得异常简单。数据准备好后，导入到统计工具中跑一下，结果就出来了。这里面遇到的一个问题是，把用户分成多少类合适？通常，可以结合几个标准综合判断： 1.看拐点（层次聚类会出来聚合系数图，一般选择拐点附近的几个类别）；2.凭经验或产品特性判断（不同产品的用户差异性也不同）；3.在逻辑上能够清楚地解释。

文章插图
图2：聚合系数图
（3）找出各类用户的重要特征
确定一种分类方案之后，接下来，我们需要返回观察各类别用户在各个变量上的表现。根据差异检验的结果，我们以颜色区分出不同类用户在这项指标上的水平高低。其他变量以此类推。最后，我们会发现不同类别用户有别于其他类别用户的重要特征。
（4）聚类解释和命名
在理解和解释用户分类时，最好可以结合更多的数据，例如，人口统计学数据、功能偏好数据等等。然后，选取每一类别最明显的几个特征为其命名，大功告成。
五、K-means聚类在用户分群中的应用案例
在本案例中，我们首先来看最常用的K-Means聚类法（也叫快速聚类法），这是非层次聚类法当中最常用的一种。因其简单直观的计算方法和比较快的速度（相对层次聚类法而言），进行探索性分析时，K-Means往往是第一个采用的算法。并且，由于其广泛被采用，在协作沟通时也节省了不少用于解释的时间成本。
1. K-means的算法原理：

随机取k个元素，作为k个簇各自的中心。
计算剩下的元素到k个簇中心的相似度，将这些元素分别划归到相似度最高的簇。
根据聚类结果，重新计算k个簇各自的中心，计算方法是取簇中所有元素各自维度的算术平均数。
将全部元素按照新的中心重新聚类。
重复第4步，直到聚类结果不再变化，然后结果输出。

假设我们提取到原始数据的集合为(X1, X2, …, Xn)，并且每个Xi为d维的向量，K-means聚类的目的就是，在给定分类组数k（k ≤ n）值的条件下，将原始数据分成k类，S = {S1, S2, …, Sk}，在数值模型上，即对以下表达式求最小值（μi 表示分类Si 的平均值）：