用户画像分群:增长分析必杀技?( 三 )


用户画像分群:增长分析必杀技?

文章插图
2. 用户分群背景和目标:
某产品覆盖社会各种群体(不同年龄、不同行业、不同兴趣等),需要将大盘用户进行一定细分,然后针对性的开展运营活动 。
3. 聚类变量选取:
用户画像特征、用户状态特征、用户活跃特征
4. 聚类分析和结果:
通过相关性分析和变量重要性分析,剔除部分效果差的变量,然后对剩余11个变量进行多次训练(目标聚类个数,参与的变量,组内个体差异容忍度),最终得出聚类结果
用户画像分群:增长分析必杀技?

文章插图
图3:用户分群K-means聚类效果
5. 结果解读和命名:
聚类1:低端低龄群体
聚类2:学生活跃群体
聚类3:职场高粘性群体
聚类4:职场低粘性群体
聚类5:高龄低活跃群体
表2:用户分群K-mean聚类结果
六、两步聚类和k-means聚类的效果对比
前面谈到的K-Means聚类法有简单、直观和快速的优点 。但是其缺点是只能采用数值型变量,不能包含类别变量,并且对异常值非常敏感,离群值很容易严重影响聚类结果 。并且,当数据集比较大(在腾讯,这种情况很常见),不能把所有数据点都装进内存的时候,K-Means就无法在单机上运行 。而两步聚类法则克服了以上缺点,可以包含类别变量和数值型变量,并且当硬件条件不足或数据集非常大时,都能顺利运行 。这种两步聚类法可以看成是改进版BIRCH聚类算法和层次聚类法的结合,先用BIRCH算法中的“聚类特征树”做预聚类,形成子类,然后把子类作为输入,做层次聚类 。
1. 两步聚类的原理:
第一步:预聚类过程:
构建聚类特征树(CFT),分成很多子类 。
开始时,把某个观测量放在树的根节点处,它记录有该观测量的变量信息,然后根据指定的距离测度作为相似性依据,使每个后续观测量根据它与已有节点的相似性,放到最相似的节点中,如果没有找到某个相似性的节点,就为它形成一个新的节点 。在这一步当中,离群点将会被识别并剔除,不会像在K-Means当中那么容易地影响结果 。
第二步:正式聚类:
将第一步完成的预聚类作为输入,对之使用分层聚类的方法进行再聚类(以对数似然函数作为距离的度量) 。每一个阶段,利用施瓦兹贝叶斯信息准则(BIC)评价现有分类是否适合现有数据,
并在最后给出符合准则的分类方案 。
2. 两步聚类的优点:
1.海量数据处理;
2.自动标准化数据;
3.能够处理分类变量和连续变量的混合数据;
4.可自动丢弃异常值或者将异常值归入最近的类 。
5.可自动确定或者根据业务需要人工指定分类数目;
3. 两步聚类的效果对比:
对第六点同样的数据进行两步聚类,得到模型最优结果如下
用户画像分群:增长分析必杀技?

文章插图
图4:用户分群两步聚类效果
4. 两步聚类结果解读:
聚类1:低端低龄群体
聚类2:学生或新入职场高活跃群体
聚类3:青年低活跃群体
聚类4:青年挂机群体
聚类5:职场办公群体
聚类6:高龄低活跃群体
表3:用户分群两步聚类结果
七、业务案例 – 通过K-Means聚类,挖掘特殊行为模式的客户群
1. 业务需求
在本案中,产品经理希望了解登录不活跃用户的行为模式,并且能针对不同的行为组合,对庞大的用户群体进行细分,从而关注不同群体的不同需求,甚至挖掘垂直领域需求,从而在产品或运营侧采取措施,拉活沉默用户,提高DAU 。