数据分析方法及数据处理流程实战案例模板.docx

资源描述

数据分析方法、数据处理步骤实战案例大数据时代，我们人人全部逐步开始用数据眼光来看待每一个事情、事物。确实，数据直观明了传达出来信息让人一下子就能领会且毫无疑点，不过前提是数据本身真实性和正确度要有确保。今天就来和大家分享一下相关数据分析方法、数据处理步骤实战案例，让大家对于数据分析师这个岗位工作内容有更多了解和认识，让能够趁机了解了解我们平时看似轻松便捷数据可视化背后全部是有多专业步骤在支撑着。一、大数据思维在、大数据概念火了以后，能够说这几年很多传统企业也好，互联网企业也好，全部把自己业务给大数据靠一靠，而且提比较多大数据思维。那么大数据思维是怎么回事？我们来看两个例子：案例1：输入法首先，我们来看一下输入法例子。我上大学，那时用输入法比较多是智能ABC，还有微软拼音，还有五笔。那时候输入法比现在来说要慢很多，很多时候输一个词全部要选好几次，去选词还是调整才能把这个字打出来，效率是很低。到了，出了一个新输出法——紫光拼音，感觉真很快，键盘没有按下去字就已经跳出来了。不过，以后很快发觉紫光拼音输入法也有它问题，比如当初互联网发展已经比较快了，会常常出现部分新词汇，这些词汇在它词库里没有话，就极难敲出来这个词。在左右，搜狗输入法出现了。搜狗输入法基于搜狗本身是一个搜索，它积累了部分用户输入检索词这些数据，用户用输入法时候产生这些词信息，将它们进行统计分析，把部分新词汇逐步添加到词库里去，经过云方法进行管理。比如，去年流行一个词叫“然并卵”，这么一个词假如用传统方法，因为它是一个重新结构词，在输入法是没措施经过拼音“ran bing luan”直接把它找出来。然而，在大数据思维下那就不一样了，换句话说，我们先不知道有这么一个词汇，不过我们发觉有很多人在输入了这个词汇，于是，我们能够经过统计发觉最近新出现一个高频词汇，把它加到司库里面并更新给全部些人，大家在使用时候能够直接找到这个词了。案例2：地图再来看一个地图案例，在这种电脑地图、手机地图出现之前，我们全部是用纸质地图。这种地图差不多就是十二个月要换一版，因为很多地址可能变了，而且在纸质地图上肯定是看不出来，从一个地方到另外一个地方怎么走是最好？中间是不是堵车？这些全部是有需要有经验多种司机才能判定出来。在有了baidu地图这么产品就要好很多，比如：它能告诉你这条路目前是不是堵？或说能告诉你半个小时以后它是不是堵？它是不是能够估计路况情况？另外，你去一个地方它能够给你计划另一条路线，这些就是因为它采集到很多数据。比如：大家在用baidu地图时候，有GPS地位信息，基于你这个位置移动信息，就能够知道路拥堵情况。另外，她能够搜集到很多用户使用情况，能够跟交管局或其它部门来采集部分其它摄像头、地面传感器采集车辆数量数据，就能够做这么判定了。这里，我们来看一看纸质地图跟新手机地图之间，智能ABC输入法跟搜狗输入法全部有什么区分？这里面最大差异就是有没有用上新数据。这里就引来了一个概念——数据驱动。有了这些数据，基于数据上统计也好，做其它挖掘也好，把一个产品做愈加智能，变得愈加好，这个跟它对应就是之前可能没有数据情况，可能是拍脑袋方法，或说我们用过去，我们想清楚为何然后再去做这个事情。这些相比之下数据驱动这种方法效率就要高很多，而且有很多以前处理不了问题它就能处理很好。二、数据驱动对于数据驱动这一点，可能有些人从没有看数习惯到了看数习惯那是一大进步，是不是能看多个数这就叫数据驱动了呢？这还远远不够，这里来说一下什么是数据驱动？或现有创业企业在进行数据驱动这件事情上存在部分问题。一个情况大家在企业里面有一个数据工程师，她工作职责就是跑数据。不管是市场也好，产品也好，运行也好，老板也好，大家全部会有多种多样数据需求，但全部会提给她。然而，这个资源也是有限，她工作时间也是有限，只能一个一个需求去处理，她本身工作很忙，大家提需求以后可能并不会立即就处理，可能需要等候一段时间。即使处理了这个需求，首先她可能数据准备不全，她需要去采集部分数据，或做部分升级，她要把数据拿过来。拿过来以后又在这个数据上进行部分分析，这个过程本身可能两三天时间就过去了，假如加上等候时间更长。对于有些人来说，这个等候周期太长，整个时机可能就错过了。比如，你关键就是考察一个节日或一个开学这么一个时间点，然后想搞部分运行相关事情，这个时机可能就错过去了，很多人等不到了，有些同学可能就干脆还是拍脑袋，就不等候这个数据了。这个过程其实就是说效率是很低，并不是说拿不到这个数据，而是说效率低情况下我们错过了很多机会。对于还有部分企业来说，之前可能连个数全部没有，现在有了一个仪表盘，有了仪表盘能够看到企业上个季度、昨天总体这些数据，还是很不错。对老板来说肯定还是比较快乐，不过，对于市场、运行这些同学来说可能就还不够。比如，我们发觉某一天用户量跌了20%，这个时候肯定不能放着不管，需要查一查这个问题出在哪。这个时候，只看一个宏观数那是远远不够，我们通常要对这个数据进行切分，按地域、按渠道，按不一样方法去追查，看到底是哪少了，是整体少了，还是某一个特殊渠道独特地方它这个数据少了，这个时候单单靠一个仪表盘是不够。理想状态数据驱动应该是怎么样？就是一个自助式数据分析，让业务人员每一个人全部能自己去进行数据分析，掌握这个数据。前面我讲到一个模式，我们源头是一堆杂乱数据，中间有一个工程师用来跑这个数据，然后右边是接多种业务同学提了需求，然后排队等候被处理，这种方法效率是很低。理想状态来说，我们现象大数据源本身整好，整全整细了，中间提供强大分析工具，让每一个员工全部能直接进行操作，大家并发去做部分业务上数据需求，这个效率就要高很多。三、数据处理步骤大数据分析这件事用一个非技术角度来看话，就能够分成金字塔，自底向上是三个部分，第一个部分是数据采集，第二个部分是数据建模，第三个部分是数据分析，我们来分别看一下。数据采集首先来说一下数据采集，我在baidu干了有七年是数据相关事情。我最大心得——数据这个事情假如想要愈加好，最关键就是数据源，数据源这个整好了以后，后面事情全部很轻松。用一个好查询引擎、一个慢查询引擎无非是时间上可能消耗不大一样，不过数据源假如是差话，后面用再复杂算法可能全部处理不了这个问题，可能全部是极难得到正确结论。我认为好数据处理步骤有两个基础标准，一个是全，一个是细。全：就是说我们要拿多个数据源，不能说只拿一个用户端数据源，服务端数据源没有拿，数据库数据源没有拿，做分析时候没有这些数据你可能是搞歪了。另外，大数据里面讲是全量，而不是抽样。不能说只抽了一些省数据，然后就开始说全国是怎么样。可能有些省很特殊，比如新疆、西藏这些地方用户端跟内地可能有很大差异。细：其实就是强调多维度，在采集数据时候尽可能把每一个维度、属性、字段全部给它采集过来。比如：像where、who、how这些东西给它替补下来，后面分析时候就跳不出这些能够所选这个维度，而不是说开始时候也围着需求。依据这个需求确定了产生一些数据，到了后面真正有一个新需求来时候，又要采集新数据，这个时候整个迭代周期就会慢很多，效率就会差很多，尽可能从源头抓数据去做好采集。数据建模有了数据以后，就要对数据进行加工，不能把原始数据直接汇报给上面业务分析人员，它可能本身是杂乱，没有经过很好逻辑。这里就牵扯到数据建框，首先，提一个概念就是数据模型。很多人可能对数据模型这个词产生一个畏惧感，认为模型这个东西是什么高深东西，很复杂，但其实这个事情很简单。我春节期间在家干过一件事情，我自己家里面家谱在文革时候被烧了，以后家里长辈说一定要把家谱这些东西给存档一下，因为我会电脑，就帮着用电脑去理了一下这些家族数据这些关系，整个族谱这个信息。我们现实是一个个人，家谱里面人，经过一个树型结构，还有它们之间数据关系，就能把现实实体东西用多个简单图给表示出来，这里就是一个数据模型。数据模型就是对现实世界一个抽象化数据表示。我们这些创业企业常常是这么一个情况，我们现在这种业务，通常前端做一个请求，然后对请求经过处理，再更新到数据库里面去，数据库里面建了一系列数据表，数据表之间全部是很多依靠关系。比如，就像我图片里面展示这么，这些表一个业务项发展差不多十二个月以上它可能就牵扯到几十张甚至上百张数据表，然后把这个表直接提供给业务分析人员去使用，了解起来难度是很大。这个数据模型是用于满足你正常业务运转，为产品正常运行而建一个数据模型。不过，它并不是一个针对分析人员使用模型。假如，非要把它用于数据分析那就带来了很多问题。比如：它了解起来很麻烦。另外，数据分析很依靠表之间这种格子，比如：某一天我们为了提升性能，对某一表进行了拆分，或加了字段、删了某个字短，这个调整全部会影响到你分析逻辑。这里，最好要针对分析需求对数据重新进行解码，它内容可能是一致，不过我们组织方法改变了一下。就拿用户行为这块数据来说，就能够对它进行一个抽象，然后重新把它作为一个判定表。用户在产品上进行一系列操作，比如浏览一个商品，然后谁浏览，什么时间浏览，她用什么操作系统，用什么浏览器版本，还有她这个操作看了什么商品，这个商品部分属性是什么，这个东西全部给它进行了一个很好抽象。这种抽样很大好处很轻易了解，看过去一眼就知道这表是什么，对分析来说也愈加方便。在数据分析方，尤其是针对用户行为分析方面，现在比较有效一个模型就是多维数据模型，在线分析处理这个模型，它里面有这个关键概念，一个是维度，一个是指标。维度比如城市，然后北京、上海这些一个维度，维度西面部分属性，然后操作系统，还有IOS、安卓这些就是部分维度，然后维度里面属性。经过维度交叉，就能够看部分指标问题，比如用户量、销售额，这些就是指标。比如，经过这个模型就能够看来自北京，使用IOS，她们整体销售额是怎么样。这里只是举了两个维度，可能还有很多个维度。总而言之，经过维度组合就能够看部分指标数，大家能够回想一下，大家常见这些业务数据分析需求是不是很多全部能经过这种简单模式给抽样出来。四、数据分析方法接下来看一下互联网产品采取数据分析方法。对于互联网产品常见用户消费分析来说，有四种： · 第一个是多维事件分析，分析维度之间组合、关系。 · 第二种是漏斗分析，对于电商、订单相关这种行为产品来说很关键，要看不一样渠道转化这些东西。 · 第三种留存分析，用户来了以后我们期望她不停来，不停进行购置，这就是留存。 · 第四种回访，回访是留存一个尤其形式，能够看她一段时间内访问频次，或访问时间段情况方法1：多维事件分析法首先来看多维事件分析，这块常见运行、产品改善这种效果分析。其实，大部分情况全部是能用多维事件分析，然后对它进行一个数据上统计。 1. 三个关键概念这里面其实就是由三个关键概念，一个就是事件，一个是维度，一个是指标组成。 · 事件就是说任何一个互联网产品，全部能够把它抽象成一系列事件，比如针对电商产品来说，可抽象到提交、订单、注册、收到商品一系列事件用户行为。 · 每一个事件里面全部包含一系列属性。比如，她用操作系统版本是否连wifi；比如，订单相关运费，订单总价这些东西，或用户部分职能属性，这些就是一系列维度。 · 基于这些维度看部分指标情况。比如，对于提交订单来说，可能是她总提交订单次数做成一个指标，提交订单人数是一个指标，平均人均次数这也是一个指标；订单总和、总价这些也是一个指标，运费这也是一个指标，统计一个数后就能把它抽样成一个指标。 2. 多维分析价值来看一个例子，看看多维分析它价值。比如，对于订单支付这个事件来说，针对整个总成交额这条曲线，根据时间曲线会发觉它一路在下跌。但下跌时候，不能眼睁睁看着它，一定要分析原因。怎么分析这个原因呢？常见方法就是对维度进行一个拆解，能够根据一些维度进行拆分，比如我们根据地域，或根据渠道，或根据其它部分方法去拆开，根据年纪段、根据性别去拆开，看这些数据到底是不是整体在下跌，还是说某一类数据在下跌。这是一个假想例子——根据支付方法进行拆开以后，支付方法有三种，有用支付宝、阿里PAY，或用微信支付，或用银行看内支付这三种方法。经过数据能够看到支付宝、银行支付基础上是一个沉稳一个状态。不过，假如看微信支付，会发觉从最开始最多，一路下跌到很少，经过这个分析就知道微信这种支付方法，肯定存在一些问题。比如：是不是升级了这个接口或微信本身出了什么问题，造成了它量下降下去了？方法2：漏斗分析漏斗分析会看，因为数据，一个用户从做第一步操作到后面每一步操作，可能是一个杂过程。比如，一批用户先浏览了你首页，浏览首页以后可能一部分人就直接跑了，还有一部分人可能去点击到一个商品里面去，点击到商品可能又有大家跑了，接下来可能有一部分人就真购置了，这其实就是一个漏斗。经过这个漏斗，就能分析一步步转化情况，然后每一步全部有流失，能够分析不一样渠道其转化情况怎样。比如，打广告时候发觉来自baidu用户漏斗转化效果好，就可能在广告投放上就在baidu上多投部分。方法3：留存分析比如，搞一个地推活动，然以后了一批注册用户，接下来看它关键行为上面操作特征，比如当日它有操作，第二天有多少人会关键操作，第N天有多少操作，这就是看它留下来这个情况。方法4：回访分析回访就是看进行某个行为部分中度特征，如对于购置黄金这个行为来说，在一周之内最少有一天购置黄金人有多少人，最少有两天有多少人，最少有7天有多少人，或说购置多少次数这么一个分布，就是回访回购这方面分析。上面说四种分析结合起来去使用，对一个产品数据支撑、数据驱动这种深度就要比只是看一个宏观访问量或活跃用户数就要深入很多。五、运行分析实践下面结合个人在运行和分析方面实践，给大家分享一下。案例1：UGC产品首先，来看UGC产品数据分析例子。可能会分析它访问量是多少，新增用户数是多少，取得用户数多少，发帖量、降低许。诸如贴吧、baidu知道，还有知乎全部属于这一类产品。对于这么一个产品，会有很多数据指标，能够从某一个角度去观察这个产品情况。那么，问题就来了——这么多指标，到底要关注什么？不一样阶段应该关注什么指标？这里，就牵扯到一个本身指标处理，还相关键指标问题。案例2：baidu知道我加入baidu知道以后，开始刚进去就写东西了。作为RB，我天天也收到一系列报表邮件，这些报表里面有很多统计部分数据。比如，baidu知道访问量、降低许、IP数、申请数、提问量、回复量，设置追加答案，答案数量，这一系列指标。当初，看其实感觉很反感。我在思索：这么多指标，不能说这也提升，那也提升吧？每个阶段肯定要思索哪个事最关键，关键要提升哪些指标。开始时候其实是没有任何区分，不知道什么是关键、什么是不关键。以后，慢慢有部分感慨和认识，就发觉其实对于访问量、降低许这些相关。因为baidu知道需要流量全部是来自于大搜索，把它展现做一下调整或引导，对量影响很大。即使，跟baidu知道本身做好坏也有直接关系，不过它很受渠道影响——大搜索这个渠道影响。提问量开始时候，我认为很关键，怎么提升提问量，那么整个baidu知道平台这个问题就多了。提升回复量，让这些问题得到回复，高质量内容就很多了，又提升提问量，以后再提升回复量——其实等于是两类人了。而怎么把它做上去，我当初有部分迷惑，有部分矛盾，到底什么东西是最关键。有一次产品会，每一个季度全部有一个产品会。那个时候，整个部门产品责任人是孙云丰，可能在baidu待过或说对baidu产品体系有了解全部会知道这么一个人，很厉害一个产品经理。我当初就问了她这个问题，我对提问量、回复量全部要提升这个迷惑。她就说了一点，其实提问量不是一个关键问题，为何？我们能够经过大搜索去找，假如一个用户在大搜索里面进行搜索，发觉这个搜索没有一个好答案，那就能够引导她进行一个提问，这么其实这个提问量就能够快速提升上去。我一听一下就处理了这个迷惑，最关键就是一个回复量，我所做事情其实怎么去提升回复量就能够了。这里面把baidu知道这个产品抽样成了最关键一个提升——那就是怎样提升回复量，在这个问题受骗初做了一个事情就是进行问题推荐。 baidu知道有一批活跃用户，这些用户就喜爱回复问题。于是，我们思索：能不能把部分她们能够回复问题推荐给她们，让她们回复多种多样问题——这个怎么去做呢？这个思绪也很简单，现在个性化推荐全部是比较正常，大家默认知道这么一回事。不过，做推荐这个事情其实还是比较领先，从我了解情况来看，中国是个性化推荐引擎这块技术火了，但以后有些企业做这方面以后全部倒掉了。实现策略是很简单，我们就看一个用户历史回复统计，看她回复这些问题开头是什么、内容是什么。因为baidu很擅长做自然语言处理，基于这些，经过这里面抽取用户爱好词，感爱好话题，然后把待解问题，和该问题相关话题相关用户进行一个匹配，匹配上了就把这个问题推荐给这个用户。当初，我们做一个事情就是：把推荐多个月有过回复量比较高用户进行一个抽取，对她们训练一个模式——就是对每个用户有一系列话题爱好点，然后每个点全部有一个程度，这就是一个用户模型项量，就是一个爱好项量，当初抽了35万个用户。这个效果是这么，现在我已经找了我们当年做图片，整个样式其实这是我前一段时间截图，大致类似。比如，我对数据分析相关问题回复了不少，它就会给我推荐数据分析相关问题。我们这个功效差不多做了有三个月，把它推上线我们其实是满怀期待，结果效果怎样呢？上线以后很悲剧，我们发觉总回复量没有改变。于是，我们又深入分析了一下原因。当初，最开始这些关键用户在回复问题时候全部是找分类页。比如：电脑这个分类，然后看电脑相关问题，有爱好就回复。以后，我们做了一个体验：在个人中心里面加了一个猜她喜爱那个问题，然后推给她，结果用户从分类页回复这个问题转到了个人中心。不过，平均一个人回复量并没有改变，当初做这些统计，这些关键用户就回复六个问题，超出六个她就没动力回复了。我们事后分析原因，有一个原因她可能本身回复量就是这么一条线，谁能天天在哪里源源不停回复问题。还有一个同事就分析当初让她一个痛苦地方，因为我们是源源不停地推荐，然后她就发觉回复多个以后还有多个，回复了几次就感觉要瓦解了，就不想再这么回复下去了。其实，年前时知乎在问题推荐上也做了不少功夫，做了很多测试。年前有一段时间，它天天给我推部分新问题，然后我去回复。以后，发觉推太多了，就没回复动力了。针对这些关键用户会发觉从她们上面榨取不了新价值了。于是，我们调转了矛头，从另一个角度——能不能去广撒网，吸引更多用户往返复问题，这个做就是一个库里推荐。访问baidu时候，baidu不管用户是否登录，会在用户库里面去设置一个用户标识。经过这个标识能够对这个用户进行一个跟踪，即使不知道用户是谁，不过，起码能把同一个用户这个行为给它检起来。这么，就能够基于她历史检索，多种搜索词，还有她流量多种页面统计，然后去提取部分证据，然后给这些库题建一个模型。这么有一个好处，能够覆盖用户量很大，前面讲关键用户推荐只覆盖了只有35万关键用户，不过经过这种方法能够覆盖几亿baidu用户，每一次用户登录以后或访问baidu知道以后我们就基于她本身爱好然后走一次检索，在处理问题里面检索一下跟她匹配就给她推荐出来。比如前一段，我自己在没有登录时候，其实我是会看马尔克斯。我比较喜爱马尔克斯作品，我当初搜了马尔克斯部分相关内容。它就抽取出来我对马尔克斯什么感爱好，就给我推荐了马尔克斯相关问题，可能我知道我不可能就会点进去回复。这个功效上了以后效果还是很不错，让整体回复量提升了7.5%。要知道，baidu知道产品从开始做，做到、时间这个产品已经很成熟了。在部分关键指标进行大提升还是很有挑战，这种情况下我们经过这种方法提升了7.5%回复量，感觉还是比较有成就感，我当初也因为这个事情得了季度之星。案例3：流失用户召回这种形式可能对其它产品就很有效，不过对我们这个产品来说，因为我们这是一个相对来说目标比较明确而且比较小众一点差异，所以这个投放效果可能就没那么显著。在今年元旦时候，因为之前申请试用我们那个产品已经有大家，不过这里面有一万人我们给她发了帐号她也并没有回来，我们过年给大家拜拜年，然后去汇报一下进展看能不能把她们捞过来一部分。这是元旦时候我们产品整体用户情况，到了元旦为止，9月25号公布差不多两三个月时间，那个时候差不多有1490个人申请试用了我们这个产品。不过，真正试用有724个，差不多有二分之一，另外二分之一就跑了，就流失了。我们就想把这部分人抽出来给她们进行一个招回活动，这里面流失用户我们就能够把列表导出来，这是我们自己产品就有这么功效。有些人可能迷惑我们怎么拿到用户这些信息呢？这些不至于添加，因为我们申请试用时候就让她填一下姓名、联络方法，还有她企业这些信息。对于填邮箱我们就给发邮件，对于发手机号我们就给她发短信，我们分析这两种渠道带来效果。先说总体，总体我们发了716个人，这里面比前面少了一点，我把部分不靠谱这些信息人工给它干掉了。接下来，看看真正有35个人去体验了这个产品，然后35个人里面有4个人申请接入数据。因为我们在产品上面做了一个小改善，在测试环境上面，对于那些测试环境本身是部分数据她玩一玩，玩了可能感爱好以后就会试一下自己真实数据。这个时候，我们上来有一个链接引导她们去申请接入自己数据，走到这一步以后就更可能转化成我们正式用户。这两种方法转化效果我们其实也很关心，招回效果怎么样，我们看下面用红框表示出来，邮件发了394封。最终有32个人真正过来试用了，电话手机号322封，跟邮件差不多，但只有3个过来，也就是说两种效果差了8倍。这其实也提醒大家，短信这种方法可能很多人看短信比较少。当然，其次跟我们自己产品特征相关系，我们这个产品是一个PC上用起来更方便一个产品。很多人可能在手机上看到这个链接也不方便点开，点开以后输入帐号也麻烦一点。所以，造成这个效果比较差。

展开阅读全文