4点做好数据分析 数据分析实战案例( 二 )
然后,年龄分组和幸存都是透视 。
可以看出,存活下来的青壮年比例最大,老年人比例最少 。
各个年龄段的死亡百分比和存活百分比堆砌成柱状图,结果显示获救青少年的比例最高 。
sibspsibsp字段(兄弟姐妹/配偶数量)分析显示,透视后标签为0,也就是说,没有亲人的人是车上乘客的大多数 。
因为同样基数大,幸存下来的人中,亲属为0的比例最多达到61.8% 。
为每个标签做一个百分比累积的柱形图,这是一个有意义的结果 。可以看出,有一个亲人的人获救的比例最高 。
parch从parch field(父母/子女人数)的分析也可以看出,没有父母/子女的人数占船上总人数的76% 。同样,这部分人也是获救人数最多的 。
做一个百分比堆积柱形图,可以看到,父母/孩子有三个的人获救的比例最高,达到62.5% 。
3、船票维度 票价在分析票价(fare)场的时候,首先我们更关注票价和空间之间是否存在相关性 。正常的逻辑是,空间越高,票价越高 。这里pclass和Fare的相关系数是-0.56,还是比较相关的 。
记得我们用vlookup的模糊匹配来分组,也可以直接用PivotTable来分组 。透视组合后,选择一组50步,就可以透视一下票价和舱位了 。可以看出,100以上的高票价都是头等舱,二等座和三等座票价多为0~50 。
性别&车费女性的平均车费高于男性 。
性别&舱位&票价头等舱均价远高于其他两个舱位,各舱位女性均价高于男性,其中最高价512来自头等舱女性 。另一个有趣的现象是,票价为0的都是男性 。
写到这里,我们可以问另一个问题 。票价和什么有关?性别?在港口登陆?空间?小屋?有兴趣的小伙伴可以自己进一步探索,这里就不探讨了 。
接下来50组看票价分布,可以看到0~50的票价占车上乘客的82% 。
同时,0~50票价的人群仍然是幸存者最多的,因为它的基数很大 。
从各票价分组来看,500-550票价的人存活率是100%,而0-50票价的人存活率只有32% 。
ticketticket字段是车票信息/编码,没有特别显著的分析意义,这里直接删除 。
4、地域维度 embarked基于对embarked(登船港)字段的分析,透视显示S港登船人数最多,从堆积柱形图可以看出C扣登船生成比例最高 。
四、生还率同什么有关 存活率跟什么有关?这是我们最关心的 。这个问题其实就是幸存场和其他场的相关系数 。
性别列是字符数据 。为了将其映射成数值,我们添加了一个名为性别的辅助列,男性为1,女性为0 。
再加一列f_num字段,是sibsp和parch之和,表示家庭成员数 。
上船字段分为三个辅助列,port -S、port -C和port-Q 。同时输入公式:
=IF(N2="S",1,0) 如果雕刻字段是S,则端口S列是1,端口C和端口Q是0,依此类推 。
用同样的方法,对类pclass做同样的事情 。
使用数据分析中的相关系数函数查看每个字段的相关系数 。
按降序排序,就能看出存活率和什么有关 。
所以回到我们最初的问题:
【4点做好数据分析 数据分析实战案例】哪些更有可能存活?
总结一下:虽然三等舱的人数最多(54%),但头等舱生还的比例最高(62%) 虽然男性的人数(64%)多于女性,但女性的生还率(72%)远高于男性(19%) 头等舱女性的生还比例(97%)远高于三等舱女性的生还比例(49%) 15-40岁的青年人数最多(53%),生还率最高的是0~15岁的少年(56%) 亲戚的个数为0的人数最多(68%),为1的生还率最高(51%) 父母/孩子个数为0的人数最多(76%),为3的生还率最高(63%) 票价在0-50范围内的人数最多(82%),但500~550范围内票价的人生还率为100% S港口登船的人数最多(70%),但是C港口生还率最高(56%)
推荐阅读
- 4点解读用户画像 产品用户画像怎么做
- 4点做好竞品分析报告ppt 商场竞品分析报告ppt模板
- 5点做好淘宝客推广 淘宝客怎么做推广话术
- 这5个方面分析产品数据 产品数据分析从哪方面入手
- 数据分析的岗位职责 数据运营分析岗主要做什么的
- 教你5点做好营销策划 如何做好策划营销
- 教你5点做好报表设计 报表系统设计的思路
- 免费教你做好社群营销 社群营销实战手册思维导图
- 10点做好sem数据分析 sem怎么做数据分析
- 4个方面做好新媒体引流 新媒体引流是做什么
