新手教程 | 如何撰写你的第一份数据报告
你是一个在校学生,上着自己喜欢或不喜欢的课,闲来无事,你打开知乎,看到了数据分析话题,你下定决心要成为一个数据分析师,你搞来一堆学习资料和在线课程,看完之后自信满满,准备去投简历,然后发现不清楚各种工具和模型的适用范围,也不知道数据报告需要包括哪些内容,面试的感觉就是一问三不知……
你是一个工作了一段时间的白领,你觉得现在这份工作不适合你,你下班以后去逛知乎上,看到很多人在说大数据代表未来,数据分析师是21世纪最性感的十大职业之一……你激动了,你也要成为数据分析师,你利用空余时间补上了统计知识,学了分析工具,然后发现自己目前的工作跟数据分析没啥关系,觉得没有相关经验没公司要你……
这些问题的根源是什么?一句话可以概括你没有办法在最短的时间内向招聘者展示,你能够胜任数据分析这项工作。
我在知乎的回答如何快速成为数据分析师? - 陈丹奕的回答中,提出过一个“100小时学习计划”,在开始投简历前的一步,我建议用25个小时——占整个计划的四分之一,来做一份数据报告,这个步骤至少能为你带来三个好处
检验你的学习成果——数据分析是一门实用学科,能灵活运用学到的知识做出成果,比通过任何考试都重要; 测试你是否真的想做/适合做数据分析工作——比起你转行后用半年或是一年时间来发现自己的真实想法,不如在此之前就看看你能否做好这份工作,或是从其中得到乐趣; 展示你具有的能力——程序员的世界里讲究“No more talk,Show me the code”,数据分析师同样可以“Show me the report”,一份内容完整的数据报告,能帮你的面试官省下很多判断/评估/纠结的时间,给你更多的机会。写了一大堆做数据报告的好处,那么以一个初学者的水平,如何去做一份数据报告呢?下文细说。
制作数据报告的流程
先放一张图(不许抱怨配色丑!)
可以很清楚的看到,一个数据报告(副本)依据需求不同,有普通难度(蓝->橙->绿->红),也有英雄难度(蓝->橙->绿+黄->红),这次我们先讲普通难度的攻略,英雄难度放到下次讲。
普通难度的数据报告要经历7个步骤
Step 1目标确定
这一步在工作中通常是由你的客户/上级/其他部门同事/合作方提出来的,但第一次的数据报告中,需要你自己来提出并确定目标。
选择目标时,请注意以下几点
选择一个你比较熟悉,或者比较感兴趣的领域/行业; 选择一个范围比较小的细分领域/细分行业作为切入点; 确定这个领域/行业有公开发表的数据/可以获取的UGC内容(论坛帖子,用户点评等)。逐一分析上面三个注意点
选择熟悉/感兴趣的领域/行业,是为了保证你在后续的分析过程中能够真正触及事情的本质——这一过程通常称为洞察——而不是就数字论数字;
选择细分领域/行业作为切入点,是为了保证你的报告能够有一条清晰的主线,而非单纯堆砌数据;
确定公开数据/UGC内容,是为了保证你有数据可以分析,可以做成报告,你说你是个军迷,要分析一下美国在伊拉克的军事行动与基地组织恐怖活动之间的关系……找到了数据麻烦告诉我一声,我叫你一声大神……
不管用什么方法,你现在有了一个目标,那么就向下个阶段迈进吧。
Step 2数据获取
目标定下来了,接下来要去找相应的数据。如果你制定目标时完全遵循了第一步的三个注意点,那么你现在会很明确要找哪些数据。如果现在你还不确定自己需要哪些数据,那么……回到第一步重来吧。
狼蚁网站SEO优化我一下,在不依赖公司资源,不花钱买数据的情况下,获取目标数据的三类方法
一是从一些有公开数据的网站上复制/下载,比如统计局网站,各类行业网站等,通过搜索引擎可以很容易找到这些网站。举例要找汽车销量数据,在百度输入“汽车销量数据查询”关键字,结果如下
我打码的那个链接,也就是第三个链接(第一个非推广链接)就是要找的结果,点进去可以看到各月的汽车销量,但只是全国数据,没有分省统计数据。
不会每次找数据都这么顺利,这里只是告诉你要善用搜索引擎。
二是通过一些专门做数据整理打包的网站/api来下载,如果你要找金融类的数据,这种方法比较实用。其他类型的数据也有人做,但通常要收费。
三是自行收集所需数据,比如用爬虫工具爬取点评网站的商家评分、评价内容等,或是直接自己人肉收集(手工复制下来),亦或是找一个免费问卷网站做一份问卷然后散发给你身边的人,都是可以的。这种方式受限制较少,但工作量/实现难度相对较大。
如果你是在职人员或是实习生,我建议你不要用任何现在公司的数据。保证数据的安全性,不对外泄露公司的任何非公开数据,是数据分析师的基本职业道德。实在非要用(例如你要在面试中展示你在以前公司做过的数据报告),请将一切有意义的内容,包括但不限于各种数字、竞品及本品名称、时间、用户属性全部打码并转成pdf格式,只留图形和叙事逻辑描述内容。
Step 3数据清洗
在工作中,90%以上的情况,你拿到的数据都需要先做清洗工作,排除异常值、空白值、无效值、重复值等等。这项工作经常会占到整个数据分析过程将近一半的时间。
如果在上一步中,你的数据是通过手工复制/下载获取的,那么通常会比较干净,不需要做太多清洗工作。但如果数据是通过爬虫等方式得来,那么你需要进行清洗,提取核心内容,去掉网页代码、标点符号等无用内容。
无论你采用哪一种方式获取数据,请记住,数据清洗永远是你必须要做的一项工作。
Step 4数据整理
清洗过后,需要进行数据整理,即将数据整理为能够进行下一步分析的格式,对于初学者,用Excel来完成这一工作就OK。
如果你的数据已经是表格形式,那么计算一些二级指标就好,比如用今年销量和去年销量算出同比增长率。鉴于你是第一次做数据报告,建议你不要计算太多复杂的二级指标,基本的同比、环比、占比分布这些就OK。
如果你收集的是一些非数字的数据,比如对商家的点评,那么你进行下一步统计之前,需要通过“关键词-标签”方式,将句子转化为标签,再对标签进行统计。
Step 5描述分析
描述分析是最基本的分析统计方法,在实际工作中也是应用最广的分析方法。描述统计分为两大部分数据描述和指标统计。