用户增长分析——用户分群分析( 四 )


文章插图
图5:点击行为分布
 
 

用户增长分析——用户分群分析

文章插图
图6:点击行为数K-Means聚类示意图
 
对于这种情况,典型的解决方法是对频次取对数,使幂率分布转化为近似的正态分布再进行聚类,在本次研究中,取自然对数后,聚类效果仅有少量改善,但仍然停留在一个超级大类加上若干人数极少的小类的情况 。
背后原因,是点击行为数据的特点之一:核心功能和热门项目点击人数极多,而相对冷门的功能则有大量的0值 。这样的情况下,取对数是没有改善的 。
 
用户增长分析——用户分群分析

文章插图
图7:打开次数分布
 
 
用户增长分析——用户分群分析

文章插图
图8:打开次数分布(自然对数变换)
 
回到本次分析的目标当中,我们需要“发现使用行为模式异于大盘典型用户的细分群体”,如果丢弃这些冷门功能只看热门选项,则无法找出一些相对小众的行为模式达成分析目标 。而这种数值稀疏的情况则让笔者想起了文本分类 。
在文本分类的词袋模型当中,每个“文档“的词向量同样存在大量的0值,词袋模型的解决方法是对词向量用TF-IDF方法进行加权 。下面简单介绍这种方法:
d) 特征改造-TF-IDF
在文本分类的词袋模型当中,需要将一篇篇“文档”(Document)(例如一篇新闻,一条微博,一条说说)按照其讨论的主题聚合在一起,而一篇文档里面有很多词(Term) 。
TF(Term Frequency 词频率)就是指一个词在一篇文档里的出现次数在整篇文档总词数当中的占比,这样简单的计算就知道一篇文档中什么词更多,而不会受到文档本身长度的影响 。
另一方面,有些词是是什么文章都会用的“大众”词,这些词对于文章主题的分辨是没什么帮助的(例如新闻当中的“报道”“采访人员”等等) 。对于这样的“大众”词,就要降低他的权重,所以可以通过(文档总数/含有某个词的文档数)这样的计算达到目的,每篇文章都有的词权重会取0,包含的文档数越少,数值越大 。这计算就是IDF(Inverse Document Frequency 逆文档频率) 。
按照上面的讨论,读者可能已经想到了,如果把“文档”的概念变为“用户”,把“词的出现次数”替换为“功能的点击次数“,就正好可以用来把用户行为的类型进行分类 。首先是低频率用户的功能偏好会通过TF的计算得到反映,不会因为总体上用得少在与高频用户的对比当中被笼统归为一个低频用户的类 。同时IDF也让一些小众功能有更大的权重,更容易在聚类中突出小众偏好 。
 
用户增长分析——用户分群分析

文章插图
 
e) 聚类结果
通过这样的特征改造,再用K-Means算法进行聚类,得出的结果就比较符合分析目标了,从大盘数据中,我们找到了各种具有鲜明行为特色的群体,并且初略估计出了各个群体的大小,行为特征和背景特征 。并在此基础上结合用户研究数据去探索产品改进的建议 。
八、小结
用户分群对于用户数据研究领域最大的改变,在于打破数据孤岛并真实了解用户 。分析某个指标数字背后的用户具备哪些特征(他们的人群属性、行为特点等),进而发现产品问题背后的原因,并从中发现产品有效改进提升的机会或方向 。
在进行聚类分析时,特征的选择和准备非常重要:
1. 合适的变量在各个样本之类需要有明显差异;
2.变量之间不能有强相关关系,否则需要用PCA等方法先进行降维;
3.需要根据数据本身的特点和业务特性对数据进行变换(如标准化,取对数等);
而聚类算法的选择则需要结合数据特点(是否有变量,离群值,数据量,是否成簇状),以及计算速度(探索性分析往往需要较快的计算速度),精确度(能否精确识别出群落)等方面去选择合适的算法 。对算法中的参数,例如K-Means当中的类别数K,则需要结合技术指标和业务背景,选取逻辑上说得通的分类方案 。
聚类算法有非常多,各有其特点和擅长的地方,本文仅举其中两个较常用的方法为例,抛砖引玉,希望对读者有所启发 。
内容来源于网络,若侵删!

【用户增长分析——用户分群分析】


推荐阅读