1、大数据分析及应用实践大数据分析及应用实践第第1 1章章 认识大数据认识大数据本章内容本章内容1.1 大数据综述1.1.1 大数据的产生1.1.2 大数据的特征1.2 可视化表现形式1.2.1 大数据定义1.2.2 大数据的基本特征1.3 大数据思维1.3.1 大数据思维的变革1.3.2 大数据思维的关注点1.4 大数据的处理过程1.4.1 大数据采集1.4.2 大数据导入与预处理1.4.3 大数据统计与分析1.4.4 大数据挖掘1.5 大数据思维1.5.1 InfoSphereBigInsights简介1.5.2 BigQuery简介1.5.3“魔镜”简介1.6 大数据的应用1.6.1 大数据
2、助石油公司智能营销1.6.2 大数据在乳业公司预测产奶量实验1 认识大数据分析工具“魔镜”1.1 1.1 大数据综述大数据综述 1.1.1 1.1.1 大数据的产生大数据的产生随着互联网逐渐过渡到物联网,数据从而得到爆发式增长,因而产生了各色各样的大数据。网络中互联的主体不仅仅是人,可以是智能终端、传感器、乃至可穿戴设备等。大数据(bigdata,megadata)又称巨量数据,指的是海量、高增长率和多样化的信息资产。大数据革命正在对世界产生巨大的系统性影响和深远意义。1.1.2 1.1.2 大数据大数据的的特征特征 与传统数据的产生方式相比,大数据具有三个明显的特征:数据量大:数据量大是大数
3、据的明显特征,一般计量单位都是PB、EB甚至ZB。非结构性:大数据既包含结构化数据也包含非结构化数据,而且通过特定的大数据技术从大量非结构化数据中提取有用的信息。实时性:在互联网高速发展的背景下,我们所谈到的大数据不仅仅数量巨大,实时性、动态性成了大数据的另一重要特征。1.2 1.2 大数据概念大数据概念 1.2.1 1.2.1 大数据定义大数据定义 麦肯锡(美国首屈一指的咨询公司)是研究大数据的先驱。在其报告Bigdata:Thenextfrontierforinnovation,competition,andproductivity中给出的大数据定义是:大数据指的是大小超出常规的数据库工具
4、获取、存储、管理和分析能力的数据集。即大数据是现有数据库管理工具和传统数据处理手段很难处理的大型、复杂的数据集,其涉及到采集、存储、搜索、共享、传输和可视化等方面。1.2.2 1.2.2 大数据的基本特大数据的基本特点点 大数据的特点可归纳为“4V”,即Volume(容量),即海量的数据规模;Variety(种类),即多样的数据类型;Velocity(速度),即快速的数据流转和动态的数据体系;最重要的Value(价值),即巨大的数据价值。1.3 1.3 大数据思维大数据思维 1.3.1 1.3.1 大数据思维的变革大数据思维的变革 大数据时代将带来深刻的思维转变,大数据不仅将改变每个人的日常生
5、活和工作方式,改变商业组织和社会组织的运行方式。1.从样本思维到总体思维意识的变革。2.容错思维意识的变革。3.从关注因果关系到相关关系的思维变革。4.从自然思维到智能思维的变革。1.3.2 1.3.2 大数据思维的关注点大数据思维的关注点 大数据思维是客观存在,大数据思维是新的思维观。大数据思维开启了一次重大的时代转型,人们对数据的关注点也发生了很大变化。1.数据思维的最核心是利用数据解决问题。2.大数据关注“有用”。3.由关注精确度转变为关注效率。4.关注定制产品。1.41.4大数据的处理过程大数据的处理过程 1.4.1 1.4.1 大数据采集大数据采集 在计算机广泛应用的今天,数据采集的
6、重要性是十分显著的。它是计算机与外部物理世界连接的桥梁。各种类型信号采集的难易程度差别很大。数据采集系统是结合基于计算机或者其他专用测试平台的测量软硬件产品来实现灵活的、用户自定义的测量系统。数据采集技术广泛应用在各个领域,比如摄像头,麦克风,都是数据采集工具。1.4.2 1.4.2 大数据导入大数据导入/预处理预处理 虽然采集端本身会有很多数据库,但是如果要对这些海量数据进行有效的分析,还是应该将这些来自前端的数据导入到一个集中的大型分布式数据库,或者分布式存储集群,并且可以在导入基础上做一些简单的清洗和预处理工作。1.4.3 1.4.3 大数据统计大数据统计与与分析分析 大数据时代的来临将
7、对我们的现实生活、企业的运营管理模式提出了新的挑战,也带来新的市场机会。大数据技术的战略意义不在于掌握庞大的数据信息,而在于对这些数据进行专业化处理。可以说大数据分析是决策过程中的决定性因素,也是大数据时代发挥数据价值的关键环节。大数据分析技术帮助企业了解客户、锁定资源、规划生产、开拓新的业务。1.4.4 1.4.4 大数据挖掘大数据挖掘 从海量数据中发现有价值的信息,把这些数据转化成有组织的知识,这种需求导致了大数据挖掘的诞生。数据挖掘主要是在现有数据上面进行基于各种算法的计算,从而起到预测(Predict)的效果,从而实现一些高级别数据分析的需求。1.5 1.5 大数据分析工具简介大数据分
8、析工具简介 1.InfoSphere BigInsights1.InfoSphere BigInsights 由IBM推出的大数据平台InfoSphereBigInsights为用于处理流数据和持久性数据的软件。旨在帮助公司从大量不同范围的数据中挖掘商机并进行分析,为了能够对大量丰富的数据进行筛选,BigInsights提供了内置分析技术和无分享硬件集群。它可以透明地分配存储在附加至集群中各种节点的磁盘上的文件数据,将应用程序的子任务分配给位于目标数据子集附近的处理器。2.BigQuery2.BigQuery BigQuery是Google推出的一项Web服务,该服务让开发者可以使用Googl
9、e的架构来运行SQL语句对超级大的数据库进行操作。BigQuery旨在分析数十亿行近似的数据,使用类SQL语法。BigQuery支持分析交互风格,使用SELECT命令构建查询。查询语言包括支持标准操作,比如joining、sorting和grouping,以及内嵌数据结构。可以支持统计函数,比如count、sum、average、variance和standarddeviation(标准偏差)等。3.3.魔镜魔镜(moojnn)moojnn)大数据可视化处理软件魔镜为国云数据科技有限公司研发,为我国大数据领域领先的分析平台。魔镜支持各种各样的数据源。无论是Excel文件、传统数据库、大数据、集
10、成数据,甚至微博微信淘宝,魔镜都可以支持。魔镜颠覆传统Excel分析和报表工具,自动拖拽建模。操作简单、应用方便。魔镜中现为我国最大的可视化分析挖掘平台、开放的数据市场和拥有超大的视觉效果库。目前,已超过一万多家企业在使用,魔镜为提供全行业大数据解决方案。1.6 1.6 大数据应用案例大数据应用案例 1.6.1 1.6.1 大数据助石油公司精准管理、智能营销大数据助石油公司精准管理、智能营销 国内某石油公司希望通过其庞大的销售数据了解到销售代表的销售业绩与KPI,希望能从各个角度对整体的销售数据进行切片分析并根据市场走势制定合适的营销策略。该企业选择大数据分析工具魔镜来预测综合市场指数,全维度
11、的分析数据并挖掘出数据背后隐藏的巨大的价值。员工KPI考核指标客户分析石油生产流程监控管理 1.6.21.6.2大数据在乳业公司大数据在乳业公司预测产量值预测产量值 国内某乳业公司为了保证提供优质的鲜乳原料,实现真正意义上的“横跨东西、纵跨南北”的战略布局,其原奶事业部想对取决于五大区的奶牛产奶量和奶牛数量的供奶量进行预测。同时,供奶地区较多,地域跨度大,奶牛存栏情况和不同泌乳周期的产奶量等都各不相同,而原奶事业部自身的可视化展示效果较为单一。如何将不同的地域、不同的产奶量等用多元的可视化效果展示都是原奶事业部想要解决的问题。新投产泌乳牛的数量情况 大数据分析工具魔镜为改乳业公司建立的奶量预测
12、系统是通过业务逻辑,以历史供奶量为基准进行估算和预测的。大数据分析工具魔镜的大数据挖掘功能可以通过历史数据,并利用逻辑回归算法进行数据预测。预测置信度高,但前期的数据积累必不可少。未来对奶量的预测还应建立业务模型,列举影响供奶的内外因,设置权重,从而回归预测。谢 谢!第第2 2章章 大数据技术基础大数据技术基础2.1 基础架构支持2.1.1 Hadoop2.1.2 Hbase2.1.3 MapReduce2.1.4 Hive2.1.5 Pig2.1.6 R语言2.2 云计算2.2.1 云计算的特点2.2.2 云计算与大数据2.3 数据采集2.3.1 数据采集的意义2.3.2 数据采集的方法2.
13、4 数据存储2.4.1 数据存储的概念2.4.2 数据存储方式2.4.3 常见数据源类型实验1 识大数据分析工具“魔镜”本章内容本章内容目前,建立在大数据基础之上的大分析系统有两个探索方向。方向之一是:互联网企业直接在Hadoop基础之上,借助于云计算模式,通过加强开源数据库系统Hive/Hbase等工具能力,逐步提升大分析所需的分析能力。方向之二是:传统的数据仓库处理厂家引入Hadoop云计算的技术,扩展原有的信息处理能力,融合传统数据仓库能力和Hadoop云计算能力,在应用层支撑更丰富的大分析能力。不管怎样,进行大数据的大分析,需要一定的架构支撑和技术支持。2.1 2.1 基础架构支持基础
14、架构支持2.1.1 Hadoop2.1.1 HadoopHadoop是一个由Apache基金会所开发的分布式系统基础架构。用户可以在不了解分布式底层细节的情况下开发分布式程序。充分利用集群的威力进行高速运算和存储。Hadoop实现了一个分布式文件系统HDFS(HadoopDistributedFileSystem)。Hadoop的框架最核心的设计就是:HDFS和MapReduce。HDFS为海量的数据提供了存储,则MapReduce为海量的数据提供了计算。Hadoop之父Hadoop Hadoop项目的发起人为DougCutting,称之为Hadoop之父。1985年,Cutting毕业于美国
15、斯坦福大学。DougCutting主导的ApacheNutch项目是Hadoop软件的源头,该项目始于2002年,是ApacheLucene的子项目之一。Hadoop技术架构 2.1.2 HBase2.1.2 HBase HBase是运行在Hadoop上的NoSQL数据库,它是一个分布式的和可扩展的大数据仓库,也就是说HBase具有HDFS的分布式处理的优势,HBase本身就是十分强大的数据库,它能够融合key/value存储模式带来实时查询的能力,以及通过MapReduce进行离线处理或者批处理的能力。HBase不同于一般的关系数据库,它是一个适合于非结构化数据存储的数据库。所谓非结构化数据
16、存储就是说HBase是基于列的而不是基于行的模式。2.1.3 MapReduce2.1.3 MapReduceMapReduce是一种编程模型,用于大规模数据集(大于1TB)的并行运算。Map-映射,Reduce-归约。MapReduce采用分而治之的思想,把对大规模数据集的操作,分发给一个主节点管理下的各个分节点共同完成,然后通过整合各个节点的中间结果,得到最终结果。简单地说,MapReduce就是任务的分解与结果的汇总。在Hadoop中,每个MapReduce任务都被初始化为一个Job,每个Job又可以分为两种阶段:map阶段和reduce阶段。这两个阶段分别用两个函数表示,即map函数和
17、reduce函数。map函数接收一个形式的输入,然后同样产生一个形式的中间输出,Hadoop函数接收一个如形式的输入,然后对这个value集合进行处理,每个reduce产生0或1个输出,reduce的输出也是形式的。2.1.4 Hive2.1.4 HiveHive是建立在Hadoop上的数据仓库基础构架。它提供了一系列的工具,可以用来进行数据提取转化加载(ETL),这是一种可以存储、查询和分析存储在Hadoop中的大规模数据的机制。Hive定义了简单的类SQL查询语言,称为HQL,它允许熟悉SQL的用户查询数据。同时,这个语言也允许熟悉MapReduce开发者的开发自定义的mapper和red
18、ucer来处理内建的mapper和reducer无法完成的复杂的分析工作。2.1.5 Pig2.1.5 PigPig是一个基于Hadoop的大规模数据分析平台,Pig包含两个部分:PigInterface,PigLatin。它提供的SQL-LIKE语言叫PigLatin,该语言的编译器会把类SQL的数据分析请求转换为一系列经过优化处理的MapReduce运算。Pig为复杂的海量数据并行计算提供了一个简单的操作和编程接口。2.1.6 R2.1.6 R语言语言 R是一套完整的数据处理、计算和制图软件系统。其功能包括:数据存储和处理系统;数组运算工具(其向量、矩阵运算方面功能尤其强大);完整连贯的统
19、计分析工具;优秀的统计制图功能;简便而强大的编程语言:可操纵数据的输入和输出,可实现分支、循环。R语言擅长在Hadoop分布式文件系统中存储的非结构化数据的分析。R现在还可以运行在HBase这种非关系型的数据库以及面向列的分布式数据存储之上。2.2 2.2 云计算云计算 云计算技术是硬件技术和网络技术发展到一定阶段而出现的一种新的技术模型。云计算是分布式存储、网格计算、虚拟化、负载均衡、热备份冗余等传统计算机和网络技术发展融合的产物。云计算是一种计算模型,它将计算任务分布在大量计算机构成的资源池上,使用户能够按照自己的需要获取计算、存储和信息服务。这里提到的资源池也称为“云”。“云”是一些可以
20、进行自我维护和自我管理的虚拟计算资源,通常是一些大型服务器集群,包括计算服务器、存储服务器和宽带资源等。2.2.1 2.2.1 云计算的特点云计算的特点1.可扩展性:从资源低效率的分散使用到资源高效的集约化使用正是云计算的基本特征之一。2.按需提供资源服务:云计算系统实现按需向用户提供资源能大大节省用户的硬件资源开支。3.虚拟化:现在的云计算平台的重要特点是利用软件来实现硬件资源的虚拟化管理、调试及应用。4.超大规模:应用于“云”的服务器数量就在几十万甚至上百万之多,“云”也会给用户带来前所未有的计算能力。5.高可靠性和安全性:在使用“云”的服务的过程中,服务器使用了数据多副本容错、计算节点同
21、构可互换等措施在保障服务的高可靠性。2.2.2 2.2.2 云计算与大数据云计算与大数据云计算与大数据之间是相辅相成,相得益彰的关系。云计算就是硬件资源的虚拟化;大数据分析就是海量数据的高效处理。大数据挖掘处理需要云计算作为平台,而大数据涵盖的价值和规律则能够使云计算更好的与行业应用结合并发挥更大的作用。云计算将计算资源作为服务支撑大数据的挖掘,而大数据的发展趋势是对实时交互的海量数据查询、分析提供了各自需要的价值信息。2.3 2.3 数据采集数据采集2.3.1 2.3.1 数据采集的意义数据采集的意义足够的数据量是企业大数据战略建设的基础,数据采集成为大数据分析的前奏。数据采集是大数据价值挖
22、掘中重要的一环,其后的分析挖掘都是建立在数据采集的基础之上。在计算机广泛应用的今天,数据采集的重要性是十分显著的。各种类型信号采集的难易程度差别很大。实际采集时,噪声也可能带来一些麻烦。数据采集时,有一些基本原理要注意,还有更多的实际的问题要解决。2.3.2 2.3.2 数据采集的方法数据采集的方法1.基于物联网采集方法2.系统日志采集方法3.网络数据采集方法4.其他数据采集方法2.4 2.4 大数据存储大数据存储2.4.12.4.1数据存储的概念数据存储的概念 大数据分析相比于传统的数据仓库应用,具有数据量大、查询分析复杂等特点。大数据存储由于其本身存在的4V特征,传统的存储技术不能满足大数
23、据存储的需要,通过ETL技术数据资源被从源系统中提取,并被转换为一个标准的格式,再使用NoSQL数据库进行数据库存取管理,通过分布式网络文件系统将数据信息存储在整个互联网络资源中,并用可视化的操作界面随时满足用户的数据处理需求。2.4.2 2.4.2 数据存储方式数据存储方式 针对大数据的存储,主要采用以下两种存储方式。1.开放系统的直连式存储(DirectAttachedStorage,DAS),外部存储设备都是直接挂接在服务器内部总线上,数据存储设备是整个服务器结构的一部分。直连存储无法共享,因此经常出现的情况是某台服务器的存储空间不足,而其他一些服务器却有大量的存储空间处于闲置状态却无法
24、利用。2.网络附加存储(NetworkAttachedStorage,NAS),它采用独立于服务器,单独为网络数据存储而开发的一种文件服务器来连接所存储设备。这样数据存储就不再是服务器的附属,而是作为独立网络节点而存在于网络之中,可由所有的网络用户共享。2.4.3 2.4.3 常见数据源类型常见数据源类型1.文本类型:如Excel、TXT、CSV等。2.数据库类型:如MySQL、SQLSever、Oracle、PostgreSQL等。3.数据集群类型:Hive、Spark等。谢 谢!第第3 3章章 大数据管理大数据管理本章内容本章内容3.1 3.1 大数据的清洗3.1.1 3.1.1 数据质量
25、数据质量3.1.2 3.1.2 数据清洗数据清洗的作用的作用3.1.3 3.1.3 数据清洗数据清洗的方法和过程的方法和过程3.1.4 3.1.4 数据清洗实例数据清洗实例3.2 3.2 数据类型和数据转换3.2.1 3.2.1 数据类型数据类型3.2.2 3.2.2 数据转换数据转换3.3 3.3 大数据的提取和加载实验3数据处理3.1 3.1 大大数据数据的清洗的清洗 大大数数据据时时代代下下,管管理理的的关关键键依依靠靠着着数数据据,但但随随着着信信息息量量的的不不断断增增长长、智智慧慧工工具具的的不不断断涌涌现现,如如何何对对数数据据进进行行有有效效清清洗洗实实现现数数据据的的真真实实
26、性性,有有效效性性,唯唯一一性性变变得得十十分分具具有有挑挑战战。为为了了使使数数据据的的记记录录更更准准确确、一一致致,消消除除重重复复和和异异常常记记录录就就变变得得很很重重要要,所所以以数数据据预预处处理理工工作作是是相相当当必必要要的的。数数据据清清洗洗作作为为数数据据预预处处理理的的一一个个重重要要环环节节,在在大大数数据据分分析析过过程程中中占占据据重重要位置。要位置。3.1.1 3.1.1 数据质量数据质量 1.数据质量的四大要素数据质量的四大要素 在技术发展的不同阶段,对数据质量有不同的定义在技术发展的不同阶段,对数据质量有不同的定义和标准。早期对数据质量的评价标准主要以数据准
27、确性和标准。早期对数据质量的评价标准主要以数据准确性为出发点,随着信息系统功能和定位的不断延伸,用户为出发点,随着信息系统功能和定位的不断延伸,用户关心的重点逐步由数据准确性扩展至合法性、一致性等关心的重点逐步由数据准确性扩展至合法性、一致性等方面。归纳起来,数据质量具有四大要素:方面。归纳起来,数据质量具有四大要素:完整性完整性 一致性一致性 准确性准确性 及时性及时性2.数据质量管理的关键数据质量管理的关键 制订规范的数据质量度量标准制订规范的数据质量度量标准建立有效的数据质量监管体系建立有效的数据质量监管体系建立完善的数据质量管理制度建立完善的数据质量管理制度 3.1.2 3.1.2 数
28、据数据清洗的作用清洗的作用 数据清洗就是按照一定的规则把数据清洗就是按照一定的规则把“脏脏数据数据”“洗掉洗掉”,过滤不符合要求的数据,主要包括不完整的数据、,过滤不符合要求的数据,主要包括不完整的数据、错误的数据、重复的数据,然后将过滤的结果交给业务错误的数据、重复的数据,然后将过滤的结果交给业务主管部门,确认是否过滤掉还是修正之后再进行提取。主管部门,确认是否过滤掉还是修正之后再进行提取。因此如何对数据进行有效的清理和转换,使之成为符合因此如何对数据进行有效的清理和转换,使之成为符合数据分析要求的数据源,是影响数据分析准确性的关键数据分析要求的数据源,是影响数据分析准确性的关键因素。因素。
29、3.1.3 3.1.3 数据数据清洗的方法和过程清洗的方法和过程1.数据清洗的方法数据清洗的方法 通过人工检查通过人工检查 通过专门编写的应用程序通过专门编写的应用程序 针对特定应用领域的数据清理针对特定应用领域的数据清理 针对与特定应用领域无关的数据清理针对与特定应用领域无关的数据清理3.1.3 3.1.3 数据数据清洗的方法和过程清洗的方法和过程2.数据清洗的过程数据清洗的过程第一阶段第一阶段:数据分析数据分析、定义错误类型定义错误类型第二阶段第二阶段:搜索搜索、识别错误记录识别错误记录第三阶段第三阶段:修正错误修正错误3.1.4 3.1.4 数据数据清洗的实例清洗的实例DataEye 原
30、始数据源提供一组游戏下载时长数据集原始数据源提供一组游戏下载时长数据集 如果直接计算游戏平均如果直接计算游戏平均下载时长,得到的结果为下载时长,得到的结果为23 062.57 秒,约秒,约6.4小时,与小时,与实际情况严重不符,说明这实际情况严重不符,说明这一数据集受到噪声数据的显一数据集受到噪声数据的显著影响。著影响。3.1.4 数据清洗的实例将数据集等分为将数据集等分为240 300 个区个区间,找到数据集中区域间,找到数据集中区域0,3 266.376,对取值之间的数,对取值之间的数据做箱型图分析,对此区间外据做箱型图分析,对此区间外的数据剔除离群值,重新计算的数据剔除离群值,重新计算平
31、均下载时长平均下载时长最后计算目标数据源的平均下载最后计算目标数据源的平均下载时长为时长为192.93 秒,约秒,约3.22 分,分,符合实际情况。符合实际情况。通过数据分布特征及箱型图的方法来识别、剔除噪声通过数据分布特征及箱型图的方法来识别、剔除噪声数据较为快捷且效果显著。数据较为快捷且效果显著。3.2.1 3.2.1 数据类型数据类型1.整理数据类型整理数据类型(1)INT(或(或INTEGER)数据类型;()数据类型;(2)SMALLINT 数据数据类型类型(3)TINYINT 数据类型;(数据类型;(4)BIGINT 数据类型数据类型2.浮点数据类型浮点数据类型(1)REAL 数据类
32、型;(数据类型;(2)FLOAT 数据类型数据类型(3)DECIMAL 数据类型;(数据类型;(4)NUMERIC 数据类型数据类型3.二进制数据类型二进制数据类型(1)BINARY 数据类型数据类型;(;(2)VARBINARY 数据类型数据类型 3.2 3.2 数据数据类型和数据转换类型和数据转换3.2.1 3.2.1 数据类型数据类型4.逻辑数据类型逻辑数据类型 BIT 数据类型数据类型5.字符数据类型字符数据类型(1)CHAR 数据类型;(数据类型;(2)NCHAR 数据类型数据类型(3)VARCHAR 数据类型;(数据类型;(4)NVARCHAR 数据类型数据类型6.文本和图像数据类
33、型文本和图像数据类型(1)TEXT 数据类型;(数据类型;(2)NTEXT 数据类型;(数据类型;(3)IMAGE 数据类型数据类型7.日期和时间数据类型日期和时间数据类型 DATETIME 数据类型用于存储日期和时间数据类型用于存储日期和时间3.2.2 3.2.2 数据转换数据转换 数据转换是将数据从一种表示形式变为另一种表示形式的数据转换是将数据从一种表示形式变为另一种表示形式的过程。由于每一个软件后台数据库的构架与数据的存储形式都过程。由于每一个软件后台数据库的构架与数据的存储形式都是不相同的,因此就需要对数据进行转换。例如,对两个操作是不相同的,因此就需要对数据进行转换。例如,对两个操
34、作数进行运算,当操作数的类型不同,而且不属于基本数据类型数进行运算,当操作数的类型不同,而且不属于基本数据类型时,经常需要将操作数转换为所需要的类型,这个过程即为强时,经常需要将操作数转换为所需要的类型,这个过程即为强制类型转换。强制类型转换有两种形式:显式强制类型转换和制类型转换。强制类型转换有两种形式:显式强制类型转换和隐式强制类型转换。隐式强制类型转换。3.3 3.3 大数据的提取和加载大数据的提取和加载 大数据的提取和加载是指将转换好的数据保存到数据仓库中去。大数据在加载时一般采用两种方式:完全刷新加载从技术角度上说,完全刷新加载比增量提取和加载要简单得多,它适用于数据量不大并且时间代
35、价和条件代价较小的情况。增量提取和加载如何精准快速地捕获变化的数据是实现数据增量加载的关键。(1)触发器方式;(2)时间戳方式;(3)全表比对方式(4)日志表方式;(5)系统日志分析方式谢谢 谢谢 !第四章第四章 大数据统计分析技术大数据统计分析技术4.1 统计分析概述4.1.1 统计分析的概念4.1.2 统计分析的特点4.1.3 统计分析的应用4.2 统计分析的常见指标4.2.1 统计指标概述4.2.2 总量指标4.2.3 相对指标4.2.4 平均指标4.2.5 变异指标4.3 回归与预测4.3.1 回归4.3.2 预测实验4 数据分析本章内容本章内容4.1 4.1 统计分析概述统计分析概述
36、4.1.1 4.1.1 统计分析的概念统计分析的概念统计分析是指运用统计方法及与分析对象有关的知识,定量与定性相结合对样本数据进行的研究活动。4.14.1大数据统计分析的核心思想大数据统计分析的核心思想4.1.14.1.1统计分析的概念统计分析的概念大数据分析是指用适当的统计分析方法对收集来的大量数据进行分析,提取有用的信息以及对数据加以详细研究和概括总结的过程。4.14.1大数据统计分析的核心思想大数据统计分析的核心思想4.1.14.1.1统计分析的概念统计分析的概念统计分析的意义帮助企业了解客户、锁定资源、规划生产、开拓新的业务;通过对消费者爱好、需求以及对品牌忠诚度等因素进行大数据分析,
37、来制定服务和营销的智能决策;通过对通信、金融活动记录的大数据分析,来精准地拓展业务和更好地服务客户4.14.1大数据统计分析的核心思想大数据统计分析的核心思想4.1.24.1.2统计分析的特点统计分析的特点传统统计分析的特点 目的与对象相统一 定性与定量相结合 系统性与全面性 原则性能动性 变化性 4.14.1大数据统计分析的核心思想大数据统计分析的核心思想4.1.24.1.2统计分析的特点统计分析的特点大数据统计分析的特点 宏观与微观相统一 方法理论尚未成熟 全样本采样,实时性分析人才专业性较强能动性 变化性 4.14.1大数据统计分析的核心思想大数据统计分析的核心思想4.1.34.1.3统
38、计分析的应用统计分析的应用大数据帮能源公司设置发电机地点 丹麦能源公司维斯塔斯(Vestas Wind Systems)将利用业界领先的IBM大数据分析软件和卓越的IBM系统优化风力涡轮机配置方案,从而实现最高效的能量输出。4.14.1大数据统计分析的核心思想大数据统计分析的核心思想4.1.34.1.3统计分析的应用统计分析的应用大数据帮零售企业制定促销策略 沃尔玛对其顾客的购物行为进行了购物篮关联规则分析,结果是得到了尿不湿与啤酒的销售量双双增长。4.14.1大数据统计分析的核心思想大数据统计分析的核心思想4.1.34.1.3统计分析的应用统计分析的应用大数据对交通行为预测基于用户和车辆的L
39、BS定位数据,分析人车出行的个体和群体特征,进行交通行为的预测。4.14.1大数据统计分析的核心思想大数据统计分析的核心思想4.1.34.1.3统计分析的应用统计分析的应用大数据对疾病疫情预测 google成功预测了2009冬季流感的传播甚至可以具体到特定的地区和州。4.14.1大数据统计分析的核心思想大数据统计分析的核心思想4.1.34.1.3统计分析的应用统计分析的应用大数据帮助奥巴马大选连任成功 2012年11月奥巴马大选连任成功的胜利果实也被归功于大数据深入数据挖掘。4.2 4.2 统计分析的常见指标统计分析的常见指标4.2.14.2.1统计分析指标概述统计分析指标概述统计指标简称指标
40、,是反映同类社会经济现象总体综合数量特征的范畴及其具体数值。对统计指标通常有两种理解和使用方法:一是用来反映总体现象总体数量状况的基本概念,例如年末全国人口总数、全年国内生产总值、国内生产总值年度总长率等。二是反映现象总体数量状况的概念和数值。例如,2001年我国年末总人口数为127,627万人、全社会固定产投资增长率为13%等。4.2 4.2 统计分析的常见指标统计分析的常见指标4.2.14.2.1统计分析指标概述统计分析指标概述统计指标特点:总体性 具体性 4.2 4.2 统计分析的常见指标统计分析的常见指标4.2.14.2.1统计分析指标概述统计分析指标概述统计指标的种类:按统计指标所说
41、明的总体现象内容不同,可分为数量指标和质量指标;按统计指标按作用和表现形式不同,可分为总量指标、相对指标、平均指标、标志变异指标四类;按统计指标的作用和功能的不同,可以分为描述指标、评价指标、监测指标和预警指标;4.2 4.2 统计分析的常见指标统计分析的常见指标4.2.14.2.1统计分析指标概述统计分析指标概述统计指标体系是由若干个相互联系、相互作用的统计指标组成的整体,用以说明所研究社会经济现象各方面相互依存和相互制约的关系。通过数学公式形式表现出来的统计指标体系。例如,工业总产值=工业产品产量产品价格商品销售额。指标之间不存在数学公式形式的关系,而只是存在着一种相互联系、相互补充的关系
42、。例如,反映国内商品流转情况的指标(购进量、销售量、调拨量、库存量)所形成的指标体系;4.2 4.2 统计分析的常见指标统计分析的常见指标4.2.24.2.2总量指标总量指标总量指标是反映社会经济现象在一定时间、空间条件下的总规模或总水平的最基本的综合指标,用绝对数表示,因此,总量指标又叫统计绝对数。如某企业去年总工资100万元,去年上半年总工资30万元,相减得去年下半年总工资。比如每年的政府工作报告都会公布关乎国计民生的重要总量指标。4.2 4.2 统计分析的常见指标统计分析的常见指标4.2.24.2.2总量指标总量指标总量指标的作用:是认识社会经济现象的起点;是实行社会经济管理的依据之一;
43、是计算相对指标和平均指标的基础;4.2 4.2 统计分析的常见指标统计分析的常见指标4.2.24.2.2总量指标总量指标总量指标的种类:总体单位总量指标和总体标志总量指标;时期指标和时点指标;4.2 4.2 统计分析的常见指标统计分析的常见指标4.2.24.2.2总量指标总量指标总量指标的计量单位:实物单位;价值单位;劳动单位;4.2 4.2 统计分析的常见指标统计分析的常见指标4.2.24.2.2总量指标总量指标总量指标的计算方法:直接计算法它是对研究对象用直接的计数、点数和测量等方法,登记各单位的具体数值加以汇总,得到总量指标。如统计报表或普查中的总量资料,基本上都是用直接计算法计算出来的
44、。间接推算法它是采用社会经济现象之间的平衡关系、因果关系、比例关系或利用非全面调查资料进行推算总量的方法。如利用样本资料推断某种农产品的产量,利用平衡关系推算某种商品的库存量等。4.2 4.2 统计分析的常见指标统计分析的常见指标4.2.3 4.2.3 相对指标相对指标相对指标又称相对数,是应用对比的方法,将两个相互联系的指标数值加以对比计算的一种比值,用来说明现象之间的数量对比关系。其数值表现为相对数,如比重、比例、速度、程度、密度。比如2008年6月27日国内外主要钢铁企业的PE估值对比。相对数指标计算公式为:相对指标=分子/分母(基数)4.2 4.2 统计分析的常见指标统计分析的常见指标
45、4.2.3 4.2.3 相对指标相对指标相对指标又称相对数,是应用对比的方法,将两个相互联系的指标数值加以对比计算的一种比值,用来说明现象之间的数量对比关系。其数值表现为相对数,如比重、比例、速度、程度、密度。比如2008年6月27日国内外主要钢铁企业的PE估值对比。相对数指标计算公式为:相对指标=分子/分母(基数)4.2 4.2 统计分析的常见指标统计分析的常见指标4.2.3 4.2.3 相对指标相对指标相对指标的作用:反映现象之间的相互联系程度,说明总体现象的质量、经济效益和经济实力情况。使原来不能直接相比的数量关系变为可比,有利于对所研究失误进行分析比较。表明事物的发展程度、内部结构以及
46、比例关系,为人们深刻认识事物提供依据。4.2 4.2 统计分析的常见指标统计分析的常见指标4.2.3 4.2.3 相对指标相对指标相对指标的种类和计算原则(1)同一总体内部之比的相对指标计划完成程度相对指标:是用现象在某一段时间内同一总体的实际完成数与计划数对比的相对数,一般用百分数表示,基本公式为:4.2 4.2 统计分析的常见指标统计分析的常见指标4.2.3 4.2.3 相对指标相对指标(1)同一总体内部之比的相对指标结构相对指标:结构相对指标(又称比重)是利用分组法,将总体区分为不同特征的各部分,以部分总量与总体总量对比求得比重或比率来反映总体内部组成状况的综合指标。它是分组的基础上计算
47、出来的一种相对数。基本公式为:4.2 4.2 统计分析的常见指标统计分析的常见指标4.2.3 4.2.3 相对指标相对指标相对指标的种类和计算原则(1)同一总体内部之比的相对指标比例相对指标:比例相对指标是在总体分组的基础上,各组成部分之间的数量对比的比值,反映总体内部的比例关系。是同一总体内不同部分之比,基本公式为:4.2 4.2 统计分析的常见指标统计分析的常见指标4.2.3 4.2.3 相对指标相对指标相对指标的种类和计算原则(1)同一总体内部之比的相对指标动态相对指标:动态相对指标是同一总体中同一指标在不同时间上的指标数值对比,以表明现象的发展速度。统计上把用来作为比较标准的时期称为基
48、期,把和基期对比的时期称为报告期,计算公式为:4.2 4.2 统计分析的常见指标统计分析的常见指标4.2.3 4.2.3 相对指标相对指标(2)两个总体之间对比的相对指标比较相对指标:就是由不同单位的性质相同的指标对比而确定的相对指标,说明某一种现象在同一时间内各单位发展的不平衡程度。一般用百分数、系数或倍数表示,计算公式为:4.2 4.2 统计分析的常见指标统计分析的常见指标4.2.3 4.2.3 相对指标相对指标(2)两个总体之间对比的相对指标强度相对指标:不属于同一总体的两个性质不同但相互间有联系的总量指标对比的比值,用来反映现象的强度、密度和普遍程度、利用程度的综合指标,计算公式为:4
49、.2 4.2 统计分析的常见指标统计分析的常见指标4.2.3 4.2.3 相对指标相对指标例如,某工厂生产产品A,全年计划生产100台,到三季度结束分别生产了90台。最后全年生产了120台。去年全年生产了90台。今年这个单位共100名员工,男60人。另外一家生产相同产品的厂家,今年年产量是80台。求计划完成相对指标、执行进度相对指标、结构相对指标、比例相对指标、动态相对指标、比较相对指标、强度相对指标,则有:计划完成相对指标=120/100=120%;执行进度相对指标=90/100=90%结构相对指标=60/100=60%;比例相对指标=60/(100-60)=150:100动态相对指标=12
50、0/90=133.3%;比较相对指标=120/80=150%强度相对指标=100/100=1(台/人)正负。4.4.统计分析的常见指标统计分析的常见指标4.2.4 4.2.4 平均指标平均指标平均指标的概念平均指标是以反映总体的一般水平的综合指标,又称平均数,它是将一个总体内各个单位在某个数量标志上的差异抽象化,以反映这个总体一般水平的综合指标。比如2014年度北京市职工平均工资(又称社会平均工资)为7.76万元,月平均工资为6463元。4.2 4.2 统计分析的常见指标统计分析的常见指标4.2.4 4.2.4 平均指标平均指标平均指标的特点:平均指标是个代表值,代表总体各单位标志值的一般水平