资源描述
数据分析方法、数据处理流程实战案例
大数据时代,我们人人都逐渐开始用数据得眼光来瞧待每一个事情、事物.确实,数据得直观明了传达出来得信息让人一下子就能领略且毫无疑点,不过前提就是数据本身得真实性与准确度要有保证。今天就来与大家分享一下关于数据分析方法、数据处理流程得实战案例,让大家对于数据分析师这个岗位得工作内容有更多得理解与认识,让可以趁机了解了解咱们平时瞧似轻松便捷得数据可视化得背后都就是有多专业得流程在支撑着.
ﻫ一、大数据思维
在2011年、2012年大数据概念火了之后,可以说这几年许多传统企业也好,互联网企业也好,都把自己得业务给大数据靠一靠,并且提得比较多得大数据思维。
那么大数据思维就是怎么回事?我们来瞧两个例子:
案例1:输入法
首先,我们来瞧一下输入法得例子。
我2001年上大学,那时用得输入法比较多得就是智能ABC,还有微软拼音,还有五笔.那时候得输入法比现在来说要慢得很多,许多时候输一个词都要选好几次,去选词还就是调整才能把这个字打出来,效率就是非常低得。
到了2002年,2003年出了一种新得输出法——紫光拼音,感觉真得很快,键盘没有按下去字就已经跳出来了.但就是,后来很快发现紫光拼音输入法也有它得问题,比如当时互联网发展已经比较快了,会经常出现一些新得词汇,这些词汇在它得词库里没有得话,就很难敲出来这个词。
在2006年左右,搜狗输入法出现了.搜狗输入法基于搜狗本身就是一个搜索,它积累了一些用户输入得检索词这些数据,用户用输入法时候产生得这些词得信息,将它们进行统计分析,把一些新得词汇逐步添加到词库里去,通过云得方式进行管理。
比如,去年流行一个词叫“然并卵”,这样得一个词如果用传统得方式,因为它就是一个重新构造得词,在输入法就是没办法通过拼音“ran bing luan”直接把它找出来得。然而,在大数据思维下那就不一样了,换句话说,我们先不知道有这么一个词汇,但就是我们发现有许多人在输入了这个词汇,于就是,我们可以通过统计发现最近新出现得一个高频词汇,把它加到司库里面并更新给所有人,大家在使用得时候可以直接找到这个词了。
案例2:地图
再来瞧一个地图得案例,在这种电脑地图、手机地图出现之前,我们都就是用纸质得地图。这种地图差不多就就是一年要换一版,因为许多地址可能变了,并且在纸质地图上肯定就是瞧不出来,从一个地方到另外一个地方怎么走就是最好得?中间就是不就是堵车?这些都就是有需要有经验得各种司机才能判断出来。
在有了百度地图这样得产品就要好很多,比如:它能告诉您这条路当前就是不就是堵得?或者说能告诉您半个小时之后它就是不就是堵得?它就是不就是可以预测路况情况?
此外,您去一个地方它可以给您规划另一条路线,这些就就是因为它采集到许多数据。比如:大家在用百度地图得时候,有GPS地位信息,基于您这个位置得移动信息,就可以知道路得拥堵情况.另外,她可以收集到很多用户使用得情况,可以跟交管局或者其她部门来采集一些其她摄像头、地面得传感器采集得车辆得数量得数据,就可以做这样得判断了。
这里,我们来瞧一瞧纸质得地图跟新得手机地图之间,智能ABC输入法跟搜狗输入法都有什么区别?
这里面最大得差异就就是有没有用上新得数据。这里就引来了一个概念——数据驱动。有了这些数据,基于数据上统计也好,做其她挖掘也好,把一个产品做得更加智能,变得更加好,这个跟它对应得就就是之前可能没有数据得情况,可能就是拍脑袋得方式,或者说我们用过去得,我们想清楚为什么然后再去做这个事情。这些相比之下数据驱动这种方式效率就要高很多,并且有许多以前解决不了得问题它就能解决得非常好。
二、数据驱动
对于数据驱动这一点,可能有些人从没有瞧数得习惯到了瞧数得习惯那就是一大进步,就是不就是能瞧几个数这就叫数据驱动了呢?这还远远不够,这里来说一下什么就是数据驱动?或者现有得创业公司在进行数据驱动这件事情上存在得一些问题。
一种情况大家在公司里面有一个数据工程师,她得工作职责就就是跑数据。
不管就是市场也好,产品也好,运营也好,老板也好,大家都会有各种各样得数据需求,但都会提给她。然而,这个资源也就是有限得,她得工作时间也就是有限得,只能一个一个需求去处理,她本身工作很忙,大家提得需求之后可能并不会马上就处理,可能需要等待一段时间。即使处理了这个需求,一方面她可能数据准备得不全,她需要去采集一些数据,或做一些升级,她要把数据拿过来。拿过来之后又在这个数据上进行一些分析,这个过程本身可能两三天时间就过去了,如果加上等待得时间更长.
对于有些人来说,这个等待周期太长,整个时机可能就错过了。比如,您重要得就就是考察一个节日或者一个开学这样一个时间点,然后想搞一些运营相关得事情,这个时机可能就错过去了,许多人等不到了,有些同学可能就干脆还就是拍脑袋,就不等待这个数据了。这个过程其实就就是说效率就是非常低得,并不就是说拿不到这个数据,而就是说效率低得情况下我们错过了很多机会。
对于还有一些公司来说,之前可能连个数都没有,现在有了一个仪表盘,有了仪表盘可以瞧到公司上个季度、昨天总体得这些数据,还就是很不错得。
对老板来说肯定还就是比较高兴,但就是,对于市场、运营这些同学来说可能就还不够.
比如,我们发现某一天得用户量跌了20%,这个时候肯定不能放着不管,需要查一查这个问题出在哪.这个时候,只瞧一个宏观得数那就是远远不够得,我们一般要对这个数据进行切分,按地域、按渠道,按不同得方式去追查,瞧到底就是哪少了,就是整体少了,还就是某一个特殊得渠道独特得地方它这个数据少了,这个时候单单靠一个仪表盘就是不够得。
理想状态得数据驱动应该就是怎么样得?就就是一个自助式得数据分析,让业务人员每一个人都能自己去进行数据分析,掌握这个数据.
前面我讲到一个模式,我们源头就是一堆杂乱得数据,中间有一个工程师用来跑这个数据,然后右边就是接各种业务同学提了需求,然后排队等待被处理,这种方式效率就是非常低得.理想状态来说,我们现象大数据源本身整好,整全整细了,中间提供强大得分析工具,让每一个业务员都能直接进行操作,大家并发得去做一些业务上得数据需求,这个效率就要高非常多。
三、数据处理得流程
大数据分析这件事用一种非技术得角度来瞧得话,就可以分成金字塔,自底向上得就是三个部分,第一个部分就是数据采集,第二个部分就是数据建模,第三个部分就是数据分析,我们来分别瞧一下。
数据采集
首先来说一下数据采集,我在百度干了有七年就是数据相关得事情。我最大得心得--数据这个事情如果想要更好,最重要得就就是数据源,数据源这个整好了之后,后面得事情都很轻松。
用一个好得查询引擎、一个慢得查询引擎无非就是时间上可能消耗不大一样,但就是数据源如果就是差得话,后面用再复杂得算法可能都解决不了这个问题,可能都就是很难得到正确得结论.
我觉得好得数据处理流程有两个基本得原则,一个就是全,一个就是细。
全:
就就是说我们要拿多种数据源,不能说只拿一个客户端得数据源,服务端得数据源没有拿,数据库得数据源没有拿,做分析得时候没有这些数据您可能就是搞歪了.另外,大数据里面讲得就是全量,而不就是抽样。不能说只抽了某些省得数据,然后就开始说全国就是怎么样。可能有些省非常特殊,比如新疆、西藏这些地方客户端跟内地可能有很大差异得。
细:
其实就就是强调多维度,在采集数据得时候尽量把每一个得维度、属性、字段都给它采集过来。比如:像where、who、how这些东西给它替补下来,后面分析得时候就跳不出这些能够所选得这个维度,而不就是说开始得时候也围着需求。根据这个需求确定了产生某些数据,到了后面真正有一个新得需求来得时候,又要采集新得数据,这个时候整个迭代周期就会慢很多,效率就会差很多,尽量从源头抓得数据去做好采集。
ﻫ数据建模
有了数据之后,就要对数据进行加工,不能把原始得数据直接报告给上面得业务分析人员,它可能本身就是杂乱得,没有经过很好得逻辑得.
这里就牵扯到数据建框,首先,提一个概念就就是数据模型。许多人可能对数据模型这个词产生一种畏惧感,觉得模型这个东西就是什么高深得东西,很复杂,但其实这个事情非常简单。
我春节期间在家干过一件事情,我自己家里面家谱在文革得时候被烧了,后来家里得长辈说一定要把家谱这些东西给存档一下,因为我会电脑,就帮着用电脑去理了一下这些家族得数据这些关系,整个族谱这个信息。
我们现实就是一个个得人,家谱里面得人,通过一个树型得结构,还有它们之间数据关系,就能把现实实体得东西用几个简单图给表示出来,这里就就是一个数据模型。
数据模型就就是对现实世界得一个抽象化得数据得表示。我们这些创业公司经常就是这么一个情况,我们现在这种业务,一般前端做一个请求,然后对请求经过处理,再更新到数据库里面去,数据库里面建了一系列得数据表,数据表之间都就是很多得依赖关系。
比如,就像我图片里面展示得这样,这些表一个业务项发展差不多一年以上它可能就牵扯到几十张甚至上百张数据表,然后把这个表直接提供给业务分析人员去使用,理解起来难度就是非常大得。
这个数据模型就是用于满足您正常得业务运转,为产品正常得运行而建得一个数据模型.但就是,它并不就是一个针对分析人员使用得模型。如果,非要把它用于数据分析那就带来了很多问题。比如:它理解起来非常麻烦。
另外,数据分析很依赖表之间得这种格子,比如:某一天我们为了提升性能,对某一表进行了拆分,或者加了字段、删了某个字短,这个调整都会影响到您分析得逻辑。
这里,最好要针对分析得需求对数据重新进行解码,它内容可能就是一致得,但就是我们得组织方式改变了一下。就拿用户行为这块数据来说,就可以对它进行一个抽象,然后重新把它作为一个判断表。
用户在产品上进行得一系列得操作,比如浏览一个商品,然后谁浏览得,什么时间浏览得,她用得什么操作系统,用得什么浏览器版本,还有她这个操作瞧了什么商品,这个商品得一些属性就是什么,这个东西都给它进行了一个很好得抽象。这种抽样得很大得好处很容易理解,瞧过去一眼就知道这表就是什么,对分析来说也更加方便。
在数据分析方,特别就是针对用户行为分析方面,目前比较有效得一个模型就就是多维数据模型,在线分析处理这个模型,它里面有这个关键得概念,一个就是维度,一个就是指标。
维度比如城市,然后北京、上海这些一个维度,维度西面一些属性,然后操作系统,还有IOS、安卓这些就就是一些维度,然后维度里面得属性。
通过维度交叉,就可以瞧一些指标问题,比如用户量、销售额,这些就就是指标。比如,通过这个模型就可以瞧来自北京,使用IOS得,她们得整体销售额就是怎么样得。
这里只就是举了两个维度,可能还有很多个维度。总之,通过维度组合就可以瞧一些指标得数,大家可以回忆一下,大家常用得这些业务得数据分析需求就是不就是许多都能通过这种简单得模式给抽样出来。
四、数据分析方法
接下来瞧一下互联网产品采用得数据分析方法。
对于互联网产品常用得用户消费分析来说,有四种:
· 第一种就是多维事件得分析,分析维度之间得组合、关系。
· 第二种就是漏斗分析,对于电商、订单相关得这种行为得产品来说非常重要,要瞧不同得渠道转化这些东西.
· 第三种留存分析,用户来了之后我们希望她不断得来,不断得进行购买,这就就是留存。
· 第四种回访,回访就是留存得一种特别得形式,可以瞧她一段时间内访问得频次,或者访问得时间段得情况
方法1:多维事件分析法
首先来瞧多维事件得分析,这块常见得运营、产品改进这种效果分析。其实,大部分情况都就是能用多维事件分析,然后对它进行一个数据上得统计。
1、 三个关键概念
这里面其实就就是由三个关键得概念,一个就就是事件,一个就是维度,一个就是指标组成.
· 事件就就是说任何一个互联网产品,都可以把它抽象成一系列事件,比如针对电商产品来说,可抽象到提交、订单、注册、收到商品一系列事件用户行为。
· 每一个事件里面都包括一系列属性。比如,她用操作系统版本就是否连wifi;比如,订单相关得运费,订单总价这些东西,或者用户得一些职能属性,这些就就是一系列维度。
· 基于这些维度瞧一些指标得情况。比如,对于提交订单来说,可能就是她总提交订单得次数做成一个指标,提交订单得人数就是一个指标,平均得人均次数这也就是一个指标;订单得总与、总价这些也就是一个指标,运费这也就是一个指标,统计一个数后就能把它抽样成一个指标。
2、 多维分析得价值
来瞧一个例子,瞧瞧多维分析它得价值.
比如,对于订单支付这个事件来说,针对整个总得成交额这条曲线,按照时间得曲线会发现它一路在下跌.但下跌得时候,不能眼睁睁得瞧着它,一定要分析原因。
怎么分析这个原因呢?常用得方式就就是对维度进行一个拆解,可以按照某些维度进行拆分,比如我们按照地域,或者按照渠道,或者按照其她一些方式去拆开,按照年龄段、按照性别去拆开,瞧这些数据到底就是不就是整体在下跌,还就是说某一类数据在下跌。
这就是一个假想得例子-—按照支付方式进行拆开之后,支付方式有三种,有用支付宝、阿里PAY,或者用微信支付,或者用银行瞧内得支付这三种方式。
通过数据可以瞧到支付宝、银行支付基本上就是一个沉稳得一个状态.但就是,如果瞧微信支付,会发现从最开始最多,一路下跌到非常少,通过这个分析就知道微信这种支付方式,肯定存在某些问题。
比如:就是不就是升级了这个接口或者微信本身出了什么问题,导致了它量下降下去了?
方法2:漏斗分析
漏斗分析会瞧,因为数据,一个用户从做第一步操作到后面每一步操作,可能就是一个杂得过程.
比如,一批用户先浏览了您得首页,浏览首页之后可能一部分人就直接跑了,还有一部分人可能去点击到一个商品里面去,点击到商品可能又有很多人跑了,接下来可能有一部分人就真得购买了,这其实就就是一个漏斗.
通过这个漏斗,就能分析一步步得转化情况,然后每一步都有流失,可以分析不同得渠道其转化情况如何。比如,打广告得时候发现来自百度得用户漏斗转化效果好,就可能在广告投放上就在百度上多投一些。
方法3:留存分析
比如,搞一个地推活动,然后来了一批注册用户,接下来瞧它得关键行为上面操作得特征,比如当天它有操作,第二天有多少人会关键操作,第N天有多少操作,这就就是瞧它留下来这个情况。
方法4:回访分析
回访就就是瞧进行某个行为得一些中度特征,如对于购买黄金这个行为来说,在一周之内至少有一天购买黄金得人有多少人,至少有两天得有多少人,至少有7天得有多少人,或者说购买多少次数这么一个分布,就就是回访回购这方面得分析.
上面说得四种分析结合起来去使用,对一个产品得数据支撑、数据驱动得这种深度就要比只就是瞧一个宏观得访问量或者活跃用户数就要深入很多。
五、运营分析实践
下面结合个人在运营与分析方面得实践,给大家分享一下。
案例1:UGC产品
首先,来瞧UGC产品得数据分析得例子.可能会分析它得访问量就是多少,新增用户数就是多少,获得用户数多少,发帖量、减少量。
诸如贴吧、百度知道,还有知乎都属于这一类得产品。对于这样一个产品,会有很多数据指标,可以从某一个角度去观察这个产品得情况。那么,问题就来了—-这么多得指标,到底要关注什么?不同得阶段应该关注什么指标?这里,就牵扯到一个本身指标得处理,还有关键指标得问题。
案例2:百度知道
2007年我加入百度知道之后,开始刚进去就写东西了.作为RB,我每天也收到一系列报表邮件,这些报表里面有很多统计得一些数据。比如,百度知道得访问量、减少量、IP数、申请数、提问量、回答量,设置追加答案,答案得数量,这一系列指标。当时,瞧得其实感觉很反感.
我在思考:这么多得指标,不能说这也提高,那也提高吧?每个阶段肯定要思考哪个事最关键得,重点要提高哪些指标。开始得时候其实就是没有任何区分得,不知道什么就是重要、什么就是不重要。
后来,慢慢有一些感触与认识,就发现其实对于访问量、减少量这些相关得。因为百度知道需要流量都就是来自于大搜索,把它展现做一下调整或者引导,对量得影响非常大.虽然,跟百度知道本身做得好坏也有直接关系,但就是它很受渠道得影响-—大搜索这个渠道得影响。
提问量开始得时候,我认为非常重要,怎么提升提问量,那么整个百度知道平台得这个问题就多了。提升回答量,让这些问题得到回答,高质量得内容就非常多了,又提升提问量,而后再提升回答量--其实等于就是两类人了。而怎么把它做上去,我当时有一些困惑,有一些矛盾,到底什么东西就是最关键得。
有一次产品会,每一个季度都有一个产品会。那个时候,整个部门得产品负责人就是孙云丰,可能在百度待过得或者说对百度产品体系有了解得都会知道这么一个人,非常厉害得一个产品经理。我当时就问了她这个问题,我对提问量、回答量都要提升这个困惑。
她就说了一点,其实提问量不就是一个关键得问题,为什么?我们可以通过大搜索去找,如果一个用户在大搜索里面进行搜索,发现这个搜索没有一个好得答案,那就可以引导她进行一个提问,这样其实这个提问量就可以迅速提升上去。
我一听一下就解决了这个困惑,最关键得就就是一个回答量,我所做得事情其实怎么去提升回答量就可以了。
这里面把百度知道这个产品抽样成了最关键得一个提升-—那就就是如何提升回答量,在这个问题上当时做了一个事情就就是进行问题推荐。
百度知道有一批活跃用户,这些用户就喜欢回答问题。于就是,我们思考:能不能把一些她们可以回答问题推荐给她们,让她们回答各种各样得问题——这个怎么去做呢?
这个思路也很简单,现在个性化推荐都就是比较正常得,大家默认知道这么一回事.但就是,2008年做推荐这个事情其实还就是比较领先得,从我了解得情况来瞧,国内得就是2010年个性化推荐引擎这块技术火了,但后来有些公司做这方面后来都倒掉了。
实现策略就是非常简单得,我们就瞧一个用户历史得回答记录,瞧她回答得这些问题开头就是什么、内容就是什么。
由于百度很擅长做自然语言得处理,基于这些,通过这里面得抽取用户得兴趣词,感兴趣得话题,然后把待解得问题,与该问题相关话题得相关用户进行一个匹配,匹配上了就把这个问题推荐给这个用户。
当时,我们做得一个事情就就是:把推荐几个月有过回答量比较高得用户进行一个抽取,对她们训练一个模式——就就是对每个用户有一系列得话题兴趣点,然后每个点都有一个程度,这就就是一个用户得模型项量,就就是一个兴趣项量,当时抽了35万个用户。
这个效果就是这样得,现在我已经找了我们当年做得图片,整个样式其实这就是我前一段时间截得图,大体类似。比如,我对数据分析相关得问题回答了不少,它就会给我推荐数据分析相关得问题.
我们这个功能差不多做了有三个月,把它推上线我们其实就是满怀期待得,结果效果如何呢?
上线之后很悲剧,我们发现总得回答量没有变化。于就是,我们又进一步分析了一下原因。当时,最开始这些核心用户在回答问题得时候都就是找分类页。比如:电脑这个分类,然后瞧电脑相关得问题,有兴趣得就回答。
后来,我们做了一个体验:在个人中心里面加了一个猜她喜欢得那个问题,然后推给她,结果用户从分类页回答这个问题转到了个人中心。但就是,平均一个人回答量并没有变化,当时做得这些统计,这些核心用户就回答六个问题,超过六个她就没动力回答了。
我们事后分析原因,有一个原因她可能本身得回答量就就是这么一条线,谁能天天在哪里源源不断得回复问题。还有一个同事就分析当时让她一个痛苦得地方,因为我们就是源源不断地推荐,然后她就发现回答几个之后还有几个,回答了几次就感觉要崩溃了,就不想再这么回答下去了.
其实,年前时知乎在问题推荐上也做了不少功夫,做了许多测试。年前有一段时间,它天天给我推一些新得问题,然后我去回答.后来,发现推得太多了,就没回答得动力了。
针对这些核心用户会发现从她们上面榨取不了新得价值了。于就是,我们调转了矛头,从另一个角度——能不能去广撒网,吸引更多得用户来回答问题,这个做得就就是一个库里推荐。
访问百度得时候,百度不管用户就是否登录,会在用户得库里面去设置一个用户标识.通过这个标识能够对这个用户进行一个跟踪,虽然不知道用户就是谁,但就是,起码能把同一个用户这个行为给它检起来.这样,就可以基于她历史得检索,各种搜索词,还有她流量得各种页面得记录,然后去提取一些证据,然后给这些库题建一个模型。
这样有一个好处,能够覆盖得用户量非常大,前面讲得核心用户推荐只覆盖了只有35万得核心用户,但就是通过这种方式可以覆盖几亿百度用户,每一次用户登录之后或者访问百度知道之后我们就基于她本身兴趣然后走一次检索,在解决问题里面检索一下跟她匹配得就给她推荐出来。
比如前一段,我自己在没有登录得时候,其实我就是会瞧马尔克斯。我比较喜欢马尔克斯得作品,我当时搜了马尔克斯得一些相关得内容。它就抽取出来我对马尔克斯什么感兴趣,就给我推荐了马尔克斯相关得问题,可能我知道我不可能就会点进去回答。
这个功能上了之后效果还就是很不错得,让整体得回答量提升了7、5%。要知道,百度知道产品从2005年开始做,做到2007年、2008年得时间这个产品已经很成熟了。在一些关键指标进行大得提升还就是非常有挑战得,这种情况下我们通过这种方式提升了7、5%得回答量,感觉还就是比较有成就感,我当时也因为这个事情得了季度之星。
案例3:流失用户召回
这种形式可能对其她产品就很有效,但就是对我们这个产品来说,因为我们这就是一个相对来说目标比较明确并且比较小众一点得差别,所以这个投放得效果可能就没那么明显。
在今年元旦得时候,因为之前申请试用我们那个产品已经有很多人,但就是这里面有一万人我们给她发了帐号她也并没有回来,我们过年给大家拜拜年,然后去汇报一下进展瞧能不能把她们捞过来一部分.
这就是元旦得时候我们产品得整体用户情况,到了元旦为止,9月25号发布差不多两三个月时间,那个时候差不多有1490个人申请试用了我们这个产品。但就是,真正试用得有724个,差不多有一半,另外一半就跑了,就流失了。
我们就想把这部分人抽出来给她们进行一个招回活动,这里面流失用户我们就可以把列表导出来,这就是我们自己得产品就有这样得功能。有人可能疑惑我们怎么拿到用户得这些信息呢?
这些不至于添加,因为我们申请试用得时候就让她填一下姓名、联系方式,还有她得公司这些信息。对于填邮箱得我们就给发邮件得,对于发手机号得我们就给她发短信,我们分析这两种渠道带来得效果。
先说总体,总体我们发了716个人,这里面比前面少了一点,我把一些不靠谱得这些信息人工给它干掉了。接下来,瞧瞧真正有35个人去体验了这个产品,然后35个人里面有4个人申请接入数据。
因为我们在产品上面做了一个小得改进,在测试环境上面,对于那些测试环境本身就是一些数据她玩一玩,玩了可能感兴趣之后就会试一下自己得真实数据.这个时候,我们上来有一个链接引导她们去申请接入自己得数据,走到这一步之后就更可能转化成我们得正式客户。
这两种方式转化效果我们其实也很关心,招回得效果怎么样,我们瞧下面用红框表示出来,邮件发了394封.最终有32个人真正过来试用了,电话手机号322封,跟邮件差不多,但只有3个过来,也就就是说两种效果差了8倍。
这其实也提醒大家,短信这种方式可能许多人瞧短信得比较少。当然,另一方面跟我们自己产品特征有关系,我们这个产品就是一个PC上用起来更方便得一个产品。许多人可能在手机上瞧到这个链接也不方便点开,点开之后输入帐号也麻烦一点.所以,导致这个效果比较差。
展开阅读全文