1、读书笔记:《如何用数据解决实际问题》 序 章 1 在瞬息万变,新事物层出不穷的当今社会,已经无法仅凭个人或组织以往经验来判断和解决所有的问题。 随着全球化的发展,业务逐渐走向多元化,并不断扩大,从业务的整体来看,个人所能掌握的知识是极其有限的。 2 逻辑和数字能够在向对方传递信息时发挥重要作用。 3 对于有些领域的问题,我并没有直接从事相关业务的实际经验,但仍然需要在期限内作出客观的数据分析,并提出合理的建议。 因为根本没有过去的经验,所以,为了获得高层管理者的认可,我只能逐一确认客观事实,并用环环相扣的故事,把数据统
2、一到一起。 在客观事实当中,只有数据对任何国籍,职业经历或语言背景的人都能发挥威力。 必须用客观的,合乎逻辑的方式证明 为什么会这样 为什么说这样不好,才能让对方接受 那么需要怎么做。 4 复杂的管理问题,不一定需要高难度的统计方法,简单易懂的表达方式,反而更为重要。 在挑战公司中的一般问题时,高难度的方法未必能获得正确答案,有时反而会使我们离目标越来越远。 5 我并不是力求针对某些特定问题得出分析结果的数据科学家,也不是撰写学术论文或者报告的统计学家。我是解决问题的专家,我的目标就是在组织当中,从更贴近实际业务和管理的立场,与相关人员达
3、成共识,以推动工作前进并取得成果。 第一章 解决问题的流程及问题的设定 ====知识点==== 【划定范围】 了解在实际工作中解决业务问题的整体流程,以及这一过程中涉及数据分析的范围。 不划定对象数据,在所有数据上做文章的话,由于多个要素掺杂在一起,会很难找到问题的关键。 只有确定了分解数据的角度,对分解之后的要素进行比较,我们才能发现问题的关键,从包含所有要素在内的整体数据中,划分出作为分析对象的数据范围。 【明确问题或目的】 确保所有过程与操作在理论上最终都与目的或问题相关,这样整体的逻辑和流程才不会出现偏差。 数据整
4、理:运用数据把握现状,找到问题的关键 【从锁定原因到研究对策】 为了找到原因所在,需要进一步缩小对象范围。关注两种以上数据之间的关系,有助于锁定原因。 只是找到原因不能算解决了问题,还要针对原因决定必须采取的措施,提出方案,将各种要素落实为具体的数值。 【建立假设】 明确“理想状态”(例如销售额达到XXX) 思考:是什么可能推进/阻止我们达到理想状态 (1)从正面确认理想状态是什么,将“本质上的问题”与“原因”暂且分开考虑 (2)在此基础上定义问题,即现状尚不满足这个理想状态,可见问题原本就是指现状与理想状态之间的差距 (
5、3)使用数据定量问题——用数字来体现现状与理想状态之间的差距。 定量评价或者判断数据分析结果时,尤其需要客观的判断标准。因此必须对问题的主要指标进行定义,并与相关人员进行确认。 用数字定义问题的优点:1明确衡量指标 2定量地描述问题的严重程度及最终目标 【检验假设是否全面】——使用“框架”作为思考问题的线索 利用框架/业务流程提炼出需要考虑的关键词,再次确认自己的视野是否受到局限 常用框架: (1)流程图 (2)损益表(囊括各种项目的报表) (3)4P营销理论(产品、渠道、促销、价格) 【从全局来考虑时间的分配】
6、平衡准确度与时间之间的关系,考虑为目前从事的分析分配多少时间,答案需要精确到何种程度的同时,有计划地开展工作。 注意事项: 设定问题、从逻辑上设定合理的范围,直接决定着分析的质量。 对于所有问题来说,最初的问题定义都决定了后面工作的成败。 应在接手项目的开始阶段拓展思路。 设定问题时,分析者将思考范围狭隘地限定在自己设想的范围内,他们进行的分析将仅仅是为了验证(佐证)自己的想法。 客观分析的一个重要步骤,就是要有意识地回避“思考的近路”。在定义问题时应尽量具体地思考“怎样才是最理想的状态”。 通过确认希望实现的理想状态来扩展自己的视角,避
7、免思路立即集中到具体原因上。 ====观 点==== 1 数据分析的目的是针对“原因是什么”、“需要采取哪些行动”的问题得出结论。 紧盯着结果数据进行分析,无法实现改进结果,解决问题等目的。 2 即使提出了思路清晰的假设,确定了所需的数据,在实际工作中却很少会遇到所需数据全部都摆在眼前的情况。但即使这样我们也不应该根据“现有数据”来开展所有的工作。 抱着先从容易收据的数据开始统计的想法进行分析,这本身就是错的。 只在“现有数据”的范围内进行分析或者解决问题,会妨碍我们发现问题的本质及有效的解决对策,很可能导致我们的工作仅以“数据游
8、戏”告终。 因此我们需要设法借用相同或相近的数据来代替理论上所需的数据。 尽量从自己能够获得的数据中挖掘出更多信息,反复摸索试错。 对任何看似有用的数据,都要想方设法从中挖掘信息,分析出尽可能正确的结论。 3 从接受提案的一方看来,他们认同的并不是数据分析的内容和方法,而是以清晰明确的、能够说服别人的问题或逻辑前提为基础提出的建议。 解决问题的目标是准确地锁定主要原因,让相关人员接受自己的建议,在获得认同的基础上“推动其采取措施”。 第二章 分析数据,找到问题的关键 ====知识点==== 【趋势视点和快照视点】
9、趋势视点——某一时段内的变化 也称时间序列,可捕捉一段时间内的变化 通过数据观察变化经过 适用:关注过去的变化,预测将来的动向 快照视点——某一时刻的状况 截取某个时间的情况,用指标体现该时间的大小、比例、分布情况 适用:1 比较 2 确定某个因素对问题的影响程度 【WHAT型假设】——锁定关键词 运用“四则运算”对包含多个要素的数据进行分解 例:销售总额 = 销售数量*平均单价 =(首次购买数量+再次购买数量)*平均单价 =(首次购买数量+客户忠诚度*再次购买对象数量)*平均单价 优点:明
10、确分解后的数据与上一级变量以及最上层问题的关系 【平均值】 优点:减小数据量,迅速了解整体大小 适用:无需关注细微变化/数据间的差异,仅了解整体情况 缺陷: (1)易受到极端值(离群值)影响,不总能够准确反应总体情况(接近正态分布的情况下可以反应整体)。因此建议结合中位数进行判断,在一定程度上降低极端值的影响。 (2)掩盖了原始数据的波动信息。 平均值的绝对大小背后可能隐藏着更多的信息,需要对只用到平均值的提案抱有怀疑态度。 【标准差】 描述数据的波动情况,客观体现波动的大小 注意:原始数据相差较大时,不能够通过直
11、接比较标准差判断波动的相对大小。 【两种便于掌握数据分布/波动的方法】——直方图和“变异系数” 直方图——从视觉上直接获得答案 依赖与观察的主观判断 在数据特征和结果明显时效果更好,对于难以从直观上判断的数据可能会招致混乱 变异系数——标准差/平均值 可以对大小不同的两组数据的波动程度进行客观比较 降低主观因素的影响 只能用来比较波动程度 需要先考虑为什么要计算变异系数、由此能够获得什么信息,再进行计算 【设定标准】 例如将平均值增减1个标准差的范围定义为“标准”范围,关注处于该范围之外的数据。 如
12、果随便设定一个标准,据此评价好坏的话,人们有可能会质疑评价本身是否合理,但如果能够说明客观标准是如何设定的,就不太会出现类似的问题。 【绝对变化】 依据单纯的数量增加或者减少只能看到表面的结果,而很难对现状做出恰当的评价。 例如,再次购买的数量下降可能是因为客户流失(客户忠诚度下降),也可能是因为再次购买的需求减少。 在看到某个数字时,我们要关注的是,“这个数字能否真正评价我们想知道的问题”,“这个数字是在哪个范围产生的”,“在于其他数据进行比较时,是否需要统一标准”等问题。 ====观 点==== 熟悉业务内容,考虑从何种维度对指标进行比较,才能找到问题的关键,在依赖数据之前先进行合理、全面的推测。 问题影响的大小决定了不同问题的关注顺序和优先程度,也决定了根据分析结果采取的措施能够对解决问题产生多大的贡献。 建立假设不是通过偶然的调查碰巧得出的,我们从逻辑上探索最根本原因的同时,通过全方位的检验,锁定问题的关键。面对“为什么最后锁定这个方向”的质疑,能够提供确凿的依据,这一点可以确保整个问题解决过程具有可靠性和逻辑性。 如果进展不够顺利,就要反复试错,回到假设阶段寻找其他突破口。






