用户增长分析——用户分群分析( 四 ) _用户分析

文章插图
图5：点击行为分布

文章插图
图6：点击行为数K-Means聚类示意图

对于这种情况，典型的解决方法是对频次取对数，使幂率分布转化为近似的正态分布再进行聚类，在本次研究中，取自然对数后，聚类效果仅有少量改善，但仍然停留在一个超级大类加上若干人数极少的小类的情况。
背后原因，是点击行为数据的特点之一：核心功能和热门项目点击人数极多，而相对冷门的功能则有大量的0值。这样的情况下，取对数是没有改善的。

文章插图
图7：打开次数分布

文章插图
图8：打开次数分布(自然对数变换)

回到本次分析的目标当中，我们需要“发现使用行为模式异于大盘典型用户的细分群体”，如果丢弃这些冷门功能只看热门选项，则无法找出一些相对小众的行为模式达成分析目标。而这种数值稀疏的情况则让笔者想起了文本分类。
在文本分类的词袋模型当中，每个“文档“的词向量同样存在大量的0值，词袋模型的解决方法是对词向量用TF-IDF方法进行加权。下面简单介绍这种方法：
d) 特征改造-TF-IDF
在文本分类的词袋模型当中，需要将一篇篇“文档”（Document）（例如一篇新闻，一条微博，一条说说）按照其讨论的主题聚合在一起，而一篇文档里面有很多词（Term）。
TF（Term Frequency 词频率）就是指一个词在一篇文档里的出现次数在整篇文档总词数当中的占比，这样简单的计算就知道一篇文档中什么词更多，而不会受到文档本身长度的影响。
另一方面，有些词是是什么文章都会用的“大众”词，这些词对于文章主题的分辨是没什么帮助的（例如新闻当中的“报道”“采访人员”等等）。对于这样的“大众”词，就要降低他的权重，所以可以通过（文档总数/含有某个词的文档数）这样的计算达到目的，每篇文章都有的词权重会取0，包含的文档数越少，数值越大。这计算就是IDF（Inverse Document Frequency 逆文档频率）。
按照上面的讨论，读者可能已经想到了，如果把“文档”的概念变为“用户”，把“词的出现次数”替换为“功能的点击次数“，就正好可以用来把用户行为的类型进行分类。首先是低频率用户的功能偏好会通过TF的计算得到反映，不会因为总体上用得少在与高频用户的对比当中被笼统归为一个低频用户的类。同时IDF也让一些小众功能有更大的权重，更容易在聚类中突出小众偏好。

文章插图

e) 聚类结果
通过这样的特征改造，再用K-Means算法进行聚类，得出的结果就比较符合分析目标了，从大盘数据中，我们找到了各种具有鲜明行为特色的群体，并且初略估计出了各个群体的大小，行为特征和背景特征。并在此基础上结合用户研究数据去探索产品改进的建议。
八、小结
用户分群对于用户数据研究领域最大的改变，在于打破数据孤岛并真实了解用户。分析某个指标数字背后的用户具备哪些特征（他们的人群属性、行为特点等），进而发现产品问题背后的原因，并从中发现产品有效改进提升的机会或方向。
在进行聚类分析时，特征的选择和准备非常重要：
1. 合适的变量在各个样本之类需要有明显差异；
2.变量之间不能有强相关关系，否则需要用PCA等方法先进行降维；
3.需要根据数据本身的特点和业务特性对数据进行变换（如标准化，取对数等）；
而聚类算法的选择则需要结合数据特点（是否有变量，离群值，数据量，是否成簇状），以及计算速度（探索性分析往往需要较快的计算速度），精确度（能否精确识别出群落）等方面去选择合适的算法。对算法中的参数，例如K-Means当中的类别数K，则需要结合技术指标和业务背景，选取逻辑上说得通的分类方案。
聚类算法有非常多，各有其特点和擅长的地方，本文仅举其中两个较常用的方法为例，抛砖引玉，希望对读者有所启发。
内容来源于网络，若侵删！

【用户增长分析——用户分群分析】

上一页
1
2
3
4
5
下一页

推荐阅读

#人类已无法阻止她的沙雕发明#为脱单发明丰胸器、壁咚男友人类已无法阻止她的沙雕发明…

如何扩展c盘空间(c盘增加磁盘空间)

中国基金报|1500亿！一家新央企刚成立了

吃寿司会不会有寄生虫,寿司的生鱼片有寄生虫吗-

仙女棒的另一个意思是什么仙女棒的另一个意思

奇葩搞笑菌▲于是就花钱雇了一个在下棋的老头冒充家长，笑话：学生害怕叫家长

适合安静点的宝宝小名，浅浅笑，轻轻唱，很美妙！

图书馆闭馆日为84岁老农一人开放|温暖！图书馆闭馆日为84岁老农一人开放空巢老人更需要关爱

『rookie』TheShy被全场暴打，但却抢下大龙立功！Rookie赛后终于露出笑容

徐克翻拍《射雕英雄传》，肖战饰演郭靖，黄蓉扮演者颜值是真的高

古代为什么有公元前、公元后之分？公元元年是哪个朝代

穆雷|ATP2020网球中国赛季取消穆雷暖心发文关心中国

杭州传媒高级中学附近交通便利吗

小范说相|脾气暴躁，婚姻不顺，有这种面相的人

普洱茶友分级,中国普洱茶网讯

高晓松|说话不过脑子，高晓松终于为自己的嚣张，付出了惨痛的代价

墨染年华|妻子发毒誓等一辈子，5年后丈夫出狱，妻子已嫁与他人，丈夫入狱

苹果|消息称苹果将推新OLED版iPad：10.86寸、三星供应屏

疫苗接种|疫苗对德尔塔还有用吗?张伯礼回应对新毒株仍有保护作用

秒懂你财|股票基金怎么投？看看这些投资策略

华为手机提示拦截QQ删除照片，腾讯QQ回应尊重用户隐私

对流式电暖器优缺点分析

仔细给你来分析红茶到底值不值得收藏

分享7款帮助独立站提升站外引流的SEO分析工具

为何鲍鱼有3头和9头之分？听海鲜老板一分析，原来之前买错了

国三小轿车还能开多久呢？老司机做了分析，所有的车主快看看吧

新基建5G等技术加持下，服务机器人行业将迎来增长黑天鹅？

Windows 10中的DHCP安全性：分析关键漏洞CVE-2019-0726

微信11亿用户，为啥发朋友圈的人却越来越少？原因无非这3点

企业APP推广案例分析软件推广赚钱