时间:2023-01-19 | 标签: | 作者:Q8 | 来源:网络
小提示:您能找到这篇{以【丁香医生新冠肺炎疫情地图】为例,拆解数}绝对不是偶然,我们能帮您找到潜在客户,解决您的困扰。如果您对本页介绍的以【丁香医生新冠肺炎疫情地图】为例,拆解数内容感兴趣,有相关需求意向欢迎拨打我们的服务热线,或留言咨询,我们将第一时间联系您! |
我将项目分析总结为五步法:数据收集、定义问题、数据清洗、数据分析、输出报告。今天我将对每一步进行业务上的拆解。 数据分析五步法 一、定义问题分析的重中之重是定义问题。这个项目的需求是什么?想达到的效果是什么? 丁香医生想做一款实时更新疫情数据的产品,方便用户了解实时疫情动态。 那用户是谁?用户最关心什么? 丁香医生的用户是老百姓,咱老百姓最关心的呢,是今天又确诊多少人,疑似多少人,死亡多少人,以及治愈多少人,疫情是不是往好的方向发展…… 依照《精益数据分析》提出的“第一关键指标法”,我们提炼出关键指标:确诊人数、疑似人数、死亡人数、治愈人数。 关键指标 同时,咱老百姓除了想知道整个疫情发展,也很关心自抖音筛选视频的工作己城市的情况,因此将关键指标按省份、城市细分。疫情地图就包含了全国确诊人数热力图,各省、各市的关键指标。 各省份、城市关键指标 二、数据采集数据真实可信是数据分析的前提。丁香医生的数据来源于国家卫健委、各省市卫健委、各省市政府、港澳台等官方渠道,来源权威。 咱们数据分析师日常怎么收集数据呢?
三、数据清洗数据清洗几乎占用数据分析师80%的时间。在这里,丁香医生主要涉及去重和口径一致。 (1)去重 上面收集来的数据,各个渠道会不会重复统计呢?比如国家卫健委、省卫健委和省政府公布的数据中,肯定有重复部分,需要我们去掉重复值。 丁香医生也曾重复统计过,导致新增确诊人数变多,不过很快纠正了。 (2)口径一致 报表上线后,口径变化是大忌。2月12日,确诊口径由单一核酸检测,新加入临床诊断,确诊人数大增,一下多了1万多人。 如果是数据分析师随意调整统计口径,那就要背锅走人了;如果是老板要改口径,数据分析师就得想想该怎么妥善处理了。 丁香医生是怎么做的呢? 当日确诊人数爆增,丁香医生用虚线表示增长,并且右上方备注“临床诊断病例的影响”。这样做既反映了真实情况,也解释了因统计口径变化,导致数据异常增长。 口径变化导致的激增 四、数据分析数据收集和清洗是基本能力,数据分析才是核心竞争力。 我们在思考用什么指标来做分析时,可以参考《精益数据分析》里,关于“什么是好的数据指标”的总结:
由于丁香医生疫情地图产品,只向大家展现客观数据,没有输出具体的主观结论。但我们仍然可以根据丁香医生的指标的和图表,对疫情发展情况作出判断。 1. 趋势变化由新增趋势图,可以看到,新增确诊病例在2月12日修改统计口径后,逐渐下降,新增疑似病例在2月5日后逐渐下降。 由现存疑似、确诊趋势图,可以看到,现存确诊病例从1月19日-2月12日,呈陡峭的直线上升,在2月16日到达峰值以后,逐渐下降,现存疑似在2月8日到达峰值后逐渐下降。 全国疫情新增、现存趋势图 因为湖北是最严重的受灾区,会严重拉高其他省市的数据,因此需要特殊对待。 湖北新增确诊病例2月12日暴增1.5万以后,逐渐下跌,最近几日都维持在新增400人的水平,非湖北新增确诊病例在2月3日之前剧烈增长,2月3日武汉及周边城市封城、大家不外出聚集以后,逐渐下降,最近几日维持在两位数甚至个位数。 湖北、非湖北新增趋势图 2. 比率知道了每天的新增情况,咱老百姓还关心,这个新型冠状肺炎厉不厉害,死亡率高不高啊? 丁香医生针对这一需求,又设计了病死率趋势图和治愈率趋势图。同样由于湖北是集中爆发区,将湖北和非湖北分别对待。 病死率、治愈率趋势图 五、输出报告终于到了输出环节,丁香医生最新的版本做得非常好,我们以后做可视化产品时,完全可以借鉴板块的划分。 全国关键指标、较昨日变化情况、分省市统计关键指标、变化趋势、病死率和治愈率等。老百姓关注的点几乎都涵盖在里面。 丁香医生疫情地图版本也是一步步迭代来,我们来看一下修改前,和修改后的对比图。 修改前后对比图1,增加了更多指标和环比数据 初版地图,只有当日累计数值,修改后增加了“较昨日”的变化数据;初版只包含确网络市场开拓 案例诊、疑似、死亡和治愈4个指标,修改后增加了现存确诊、现存疑似、现存重症等指标。 修改前后对比图2,数据表格化,维度进一步细分 修改前,按省份的关键指标没有细分到城市,我们其实更关心自己城市的数据。修改后采用折叠的形式,阅读舒适度非常好。 修改前后对比图3,不同数量级指标分图展示 初版将确诊、疑似、死亡和治愈放到一起,由于确诊和死亡人数不在一个数量级,导致死亡人数的趋势无法直观表达出来,修改后将新增、现存、死亡和治愈分别列出,更能各自反映变化趋势。 报告首先呈现的一定是大家最关心的结论(确诊、疑似、死亡、治愈),其次是对结果的拆解分析,包含指标的拆解(现存确诊=昨日确诊+新增确诊-昨日死亡-昨日治愈)和维度(按省市拆关键指标)的拆分两方面,最后才可能加上一些个人分析(疫情什么时候会变好)。 本文总结“疫情地图案例”基本符合数据分析五步法的套路。 数据分析一定要在数据准确的基础上进行,数据分析=80%清洗+20%分析。 从权健到疫情地图,丁香医生抓热点声名大噪的故事值得小伙伴借鉴。 初版的体系搭建、报告输出、可视化展示都是不成熟的,需要进行多轮迭代。
作者:小曾曾; 公众号:曾哥数据分析 本文由 @小曾曾 于。, ,基于CC0协议 |
上一篇:实用的数据分析方法:核心数据反推
下一篇:数据分析在产品迭代前的意义
小提示:您应该对本页介绍的“以【丁香医生新冠肺炎疫情地图】为例,拆解数”相关内容感兴趣,若您有相关需求欢迎拨打我们的服务热线或留言咨询,我们尽快与您联系沟通以【丁香医生新冠肺炎疫情地图】为例,拆解数的相关事宜。
关键词:2年, 丁香医生, 初级, 新冠