1、单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,单击此处编辑母版文本样式,第二级,*,单击此处编辑母版标题样式,大数据技术及数据分析,主讲人:师伟,1,课程收益,学习数理统计的理念,熟悉常见的处理套路,掌握常用软件的使用,解决学员的具体问题,2,目录,数理统计常识,数理统计技术,3,目录,数理统计常识,量化的重要性,统计基础知识,数据挖掘简介,数理统计技术,4,案例,5,案例,记者在短时间内发生这么多起跳楼的事件,如果站在理论角度上,发生率算不算高?,樊富珉按卫生部统
2、计,目前中国自杀率大概是十万分之十六左右。而富士康40多万人,约十万分之二三左右,大学生我们也做过统计,大概十万分之二到三左右。如果从全国的自杀率来比的话,应该还是低的,6,案例,世界银行发展委员会25日通过了发达国家向发展中国家转移投票权的改革方案,这一改革从一个侧面反映了世界经济版图的变化,本次改革中,发达国家向发展中国家共转移了3.13个百分点的投票权。中国在世行的投票权从目前的2.77%提高到4.42%,成为世界银行第三大股东国,仅次于美国和日本,世界银行规则:任何重要的决议必须由85%以上的表决权决定,7,案例,在一次海难中,统计数据为,头等舱乘客319人,200人幸存,二等舱乘客2
3、69人,117人幸存,三等舱乘客699人,172人幸存,从以上数据你可以发现什么?,8,目录,数理统计常识,量化的重要性,统计基础知识,数据挖掘简介,数理统计技术,9,误差(波动),偶然误差,可减小但不可消除,系统误差,可消除,10,抽样,11,连续数据和离散数据,连续数据,定量,信息含量大,离散数据,定性,信息含量小,12,判断数据属性,销售订单准确度,数据输入准确度,销售地区,用通规测量得到的孔径,用卡尺测量得到的孔径,客户热线对话时间,空调制冷剂的重量,一批顾客中不满意的人数,一批顾客中不满意的比例,13,数据的居中程度和离散程度,主要的居中指标,平均值数据集的平均值,中位数数据排序后得
4、到的中间数,众数数据集中最频繁出现的值,主要的离散指标,极差数据集中最大值与最小值的差值,方差与平均值间距的平方和的平均值,标准偏差方差的平方根,14,正态曲线,大多数(但不是所有)数据符合正态分布,15,目录,数理统计常识,量化的重要性,统计基础知识,数据挖掘简介,数理统计技术,16,数据挖掘简介,数据挖掘(Data Mining)的概念,从数据库数据中揭示出隐含的、未知的并有潜在价值的信息,决策支持,基于人工智能、机器学习、模式识别、统计学、数据库、可视化技术等,高度自动化地分析企业的数据,做出归纳性的推理,从中挖掘出潜在的模式,帮助做出正确的决策,17,数据挖掘主要动作,分类,估值,预测
5、关联,聚集,可视化描述,18,案例,第一次战役1950年10月26日1950年11月02日,第二次战役1950年11月25日1950年12月02日,第三次战役1950年12月31日1951年01月08日,19,案例,丰田大规模召回事件引起全球强烈反响,引发丰田信誉危机,20,目录,数理统计常识,数理统计技术,基础动作,图表操作,典型工具和应用,21,基础动作,搜集,整理,分析,评估,展示,22,目录,数理统计常识,数理统计技术,基础动作,图表操作,典型工具和应用,23,图表类型,数字型,逻辑型,24,图表的注意事项,选取适当的图表类型,数量图表应写清单位,引用资料应说明出处,不要妄图表达过多
6、的信息,图例一般控制在五个以下,尽量简单明了、利于理解,25,动态图表,26,报告制作原则,提案型报告,说明型报告,27,文档制作原则,逻辑清晰,方案多选,文字精炼,内容可视,恰当修饰,体积小巧,制作迅速,28,报告的需求管理,报告的客户,谁在看报告?,希望看什么?,希望的频率?,希望的详略?,相关的技巧,买点和卖点,金字塔原理,29,报告的素材准则,中肯,可比,准确,时效,可靠,清晰,30,素材组织的FAB技巧,Feature特点,Advantage优点,Benefit利益,Benefit,Advantage,Feature,客户关注点,31,目录,数理统计常识,数理统计技术,基础动作,图表
7、操作,典型工具和应用,32,规范处理数据和数据有效性,数据处理的良好习惯,Excel数据有效性,33,层别法、聚类和表格维度,层别法、聚类,一维表和二维表,34,数据透视表,35,将数据按顺序等距分组,体现各组内频数的柱状图,轮廓符合正态分布曲线说明处于稳定状态,通过异常轮廓形状分析可定位异常的原因,直方图,36,案例,174,185,189,196,208,190,178,184,190,205,184,185,194,191,205,205,207,207,207,206,210,209,217,214,214,206,209,210,37,表现各项目频度降序排列及累积比例,二八原则,大问
8、题优先,柏拉图,38,ABC分析法,A类,070%,主要影响因素,B类,7090%,次要影响因素,C类,90100%,一般影响因素,ABC的划分不是绝对的,39,练习,张女士结婚五年以来与丈夫发生纠纷如下,不做家务28次,深夜不归5次,不良嗜好5次,没送礼物1次,胡乱花钱3次,婆媳关系50次,异性交往8次,请制作柏拉图并用ABC法分析,40,散布图、关联规则和预测,研究两个特性之的内在关系,坐标轴分别表示结果特性和原因特性,使得解决问题时找出强相关的原因,41,常见类型,散布图,正相关强,X的增加导致Y的明显增加,正相关弱,X的增加导致Y的略微增加,因变量,自变量,强正相关,弱正相关,因变量,
9、自变量,42,常见类型,负相关强,X的增加导致Y的明显减少,负相关弱,X的增加导致Y的略微减少,散布图,因变量,自变量,强负相关,自变量,弱负相关,因变量,43,常见类型,散布图,无相关,Y的变化与X的变化毫无关系,曲线关系,X与Y之间无线性关系但符合某种曲线变化规律,曲线相关,因变量,自变量,不相关,自变量,因变量,44,预测,Forecast法,趋势线法,45,单变量求解,46,规划求解,47,矩阵数据分析法,矩阵数据分析法(Matrix Data Analysis Chart),用于排定优先级、做多目标决策,量化表示各元素的关系,更准确地整理和分析结果,48,案例,49,练习,50,中兴通讯管理体系总监,中兴通讯最佳兼职讲师,中兴通讯学院资深讲师,中兴通讯学院质量课程经理,深圳质量协会十大金牌讲师,中国质量协会第六届学术教育委员会委员,JOLIES,AISA TOUR,PPT制作:by小鱼,扫 一 扫 师 伟 老 师 公 众 号,51,






