1、单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,#,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,#,大数据与统计学,1,引言,作为归纳分析的科学,统计学可以从亚里士多德的“城邦政情”算起,但作为一门数据分析的科学则应从配第的,政治算术,算起。,300,多年来,统计学围绕如何收集、整理和分析数据这一主线而发展,构建起了庞大、多元、融合的应用方法体系,帮助解决了各个领域大量复杂的现实问题。,统计学的发展,是根据数据的型态和问题的本质来改变的,不是因为我们会做他背后的数学而发展的。,不要因为,(,统计的,),问题困难而去做它
2、也不要因为它难而不做。,(,贺吉士,J.L.Hodges,1922-2000),R.C.Rao:,统计的分析形式随时代的推移而变化着,但是“从数据中提取一切信息”或者“归纳和揭示”作为统计分析的目的却一直没有改变。,大数据时代的来临,迫使统计学站在一个新的起点上。,2,1998,年,,科学,杂志刊登的一篇介绍计算机软件,HiQ,的文章,大数据的处理程序,中第一次正式使用了大数据(,big data,)一词。,2008,年,9,月,自然,杂志出版,“,big data,”,专刊。,最近几年,关于大数据的文献迅速增加,但绝大多数出于计算机领域的学者之手,较少有基于统计学视角的深度学术讨论。,3,
3、一、对大数据的认识,最早与大数据概念有关的学科:天文学、气象学和基因学,一开始就依赖于海量数据分析方法。,但从现代意义上看,大数据可以说是计算机与互联网相结合的产物,前者实现了数据的数字化,后者实现了数据的网络化。,大数据的本意是,所涉及的资料量规模巨大到无法透过目前主流软件工具,在合理时间内达到撷取、管理、处理、并整理成为帮助企业经营决策更积极目的的资讯。,4V,特点:,Volume,、,Velocity,、,Variety,、,Value,。,4,大数据自古有之?,人类曾经开展过的人口普查、产业普查等数据,是否属于大数据?,在计算机技术与网络化未得到充分发展以前,人们自然难以联想出大数据这
4、个概念。,从统计学的角度看,大数据不是主要基于人工设计而获得有限、固定、不连续、不可扩充的结构型数据,而是主要基于现代信息技术与工具自动记录、储存、能连续扩充、大大超出传统统计记录与储存能力的一切类型的数据,最大特征是数字化基础上的数据化。,一定程度上看,大数据并不是一个严格的概念,而是一个比喻式的称呼。,5,(一)如何理解大数据的“大”,一是“全体”的意思,即大数据就是全体数据,并且数据量必须达到一定的规模。,二是“可扩充”的意思,即大数据就是可以不断扩充容量的数据,任何数据一旦发生就可以被记录、被吸收。,三是“有待挖掘”的意思,即大数据就是有待挖掘的数据。大数据可能包含着丰富的、具有大价值
5、的信息,但被超大量的数据所掩盖、所分散而导致价值密度低,只有挖掘才能发现。,6,(二)如何理解大数据的“数据”,历史告诉我们,数据的含义是随着人类认识社会与自然现象的视野的变化、以及认识能力与技术水平的提升而改变的,经历了从传统运算型数据到现代数字化数据的变化过程。,把一切信息都看成数据是当今社会的一个特征,是一个自然进化的结果。大数据中的数据其实就是一切可以通过数字化手段记录的信息。,大数据除了结构型数据与非结构型数据的分类外,还可作以下分类:,7,如果从大数据产生的途径或渠道来看,大数据可以分为社交网络数据、人机交换数据和感应数据(机器数据)。,如果从功能上看,大数据可以分为交易型数据、流
6、程型数据和交互型数据。,需要特别指出的是,网络数据在大数据中占有特殊的份量,又可分为自媒体数据、日志数据和富媒体数据三类。从时间维度上,还可以把网络大数据分为以用户数据、日志数据为代表的历史数据,以及以视频监控数据和流媒体数据等为代表的流式数据,其中历史数据蕴含着大量有价值的信息。,基于数据的分类,储存数据与管理的方式,数据库也有两种类型:关系型数据库(,SQL,接口)和非关系型数据库(,NOSQL,接口)。,8,(三)大数据是不是好数据?,首先,大数据不会自动产生好的分析结果,不会自动把隐藏其中的秘密呈现出来,如果数据不完整、取舍不当或遭受破坏,那么就会产生错误的结论。,其次,大数据是动态的
7、具有阶段性特征,同样的关联词在不同时段可能具有不同的含义,围绕关联词的话题会随着时间的推移而会发生某些偏离,从而导致有偏的结论。,第三,对于我们所关心的研究主题,可能会受到大量没有实际意义、实际内容甚至虚假信息的干扰,让我们面对一堆数据无从下手,大数据变成了大迷惑,甚至变成了大错误。,第四,大数据中有很多小数据问题,这些问题并不会随着数据的增加而消失,反而可能更严重。,9,二、数据的变化与统计分析方法的发展,(一)数据的变化,回顾历史可以发现,数据的变化与统计分析方法的发展呈现高度吻合的关系。有一种观点认为,数据的变化过程可以分为三大阶段:数据的产生、科学数据的形成和大数据的诞生。,10,数
8、据的产生:,数的产生基于以下三个要素,一是数,二是量,三是计量单位。,数起源于人类祖先对,“,多,”,或,“,少,”,的认识,阿拉伯数字的产生实现了数的抽象性和可计算性。,数的概念及数的基本逻辑关系形成以后,人们将数的神秘性作为探寻与研究的目标之一,不断建立起更加完备的、抽象的数的体系。,以数为基础,测量、计量和比较事物就有了精确表达的语言,这在实践中就表现为量,它是客观事物所具有的能体现差异程度的一种属性,是事物可以用数来表现的规定性,包括量的规模、量的关系、量的变化、量的界限与量的规律。,在以数来表示事物的特征并采用了科学的计量单位后,就产生了真正意义上的数据,有根据的数。,11,科学数据
9、的形成:,科学数据的形成得益于对数据的科学研究,是在科学研究过程中基于科学设计、通过有针对的观察和测量获得的、用以认知自然现象和社会现象的变化规律或用以验证已有理论假设的数据。,哲学家培根所倡导的,“,实验观察,-,归纳分析,”,的方法思想和笛卡尔所倡导的数理演绎方法,将数据的使用提高到了科学方法论的地位,使数据成为了科学研究的基本要素,并使如何科学收集数据成为了研究课题。,近代科学将数据融于自然科学研究范式的实践,不仅提高了人类认识事物的精确性,更为重要的是其逐步形成的数学化思维与方程表达式解决了不同物理量之间的数值关系表达问题,从而为开展相关事物之间的定量研究提供了途径。,12,17,世纪
10、的自然哲学家开普勒对第谷大量的天文观察数据的使用,推导出了行星运动三大定律;伽利略对地球表面物体运动的数据测量建立了自由落体运动规律;牛顿利用大量的天文观察数据和实验测量数据,创立了牛顿力学体系。,科学数据因其所具有的共享性与精确性等特点而成为了科学研究的普适语言。,在自然科学对数据进行科学研究的同时,社会科学领域也对数据进行了科学范式的研究,并发现了例如平均人、恩格尔系数、基尼系数等定律。,就统计学而言,它的产生与发展过程就是对科学数据进行研究的过程,每一种统计分析方法都是在对科学数据进行科学研究的基础上形成的。,13,大数据的诞生:,20,世纪中期开始的生物基因测序研究所积累的大量数据,面
11、临着如何理解和处理的新挑战。同样的问题逐渐蔓延到各个学科领域,包括天文学研究,基本粒子研究,气象学研究和社会学研究等。,1966,年,国际科技数据委员会(,CODATA,)成立,旨在促进全球科技数据的共享。面对海量数据、快速增加的数据,人们开始重新审视和定义数据。如果说计算机技术等的快速发展,是大数据产生的基础因素,那么人类对数据理念的深化、对数据多样性的追求、对信息的永不满足,是大数据产生的内在因素。,以非结构化数据为主体的大数据,正在改变着一切,而以大数据为研究对象,通过挖掘、提取等手段探寻现象内在规律的学科,数据科学也应运而生。,14,总结:数据产生之初,其根本的功能就是体现事物或现象的
12、量的大小或多少,便于计数与比较,数据大多自然获得、被动利用;科学数据以研究与管理为目的,一般是主动获得、主动利用;而大数据的特征则是丰富的数据资源与主动获得数据相结合,数据类型多样化。当然,数据的演变是一个渐进的过程,它不是简单的一种形式代替另一种形式,而是一个由简单到复杂的各种形式相互包容、不断丰富的过程。,15,(二)统计分析方法的发展,如果说数据是表现事物特征的精确语言、认知世界的重要工具、治理国家的必备依据和科学研究的必备条件,那么数据分析则是让数据充分说话、最大限度发挥功能、有效满足不同需要的根本要求。在科学数据研究基础上形成的具有通用性质的方法就是统计方法。,纵观统计学发展史,统计
13、数据大体上经历了这样一个过程:只能收集到少量的数据,尽量多地收集数据,科学利用样本数据,综合利用各类数据,选择使用大数据,而统计分析经历了不同阶段,相应地产生了大量观察法、统计分组法、综合指标法、归纳推断法、模型方程法和数据挖掘法等分析方法,并且借助计算机及其软件的程度也越来越深。,16,配第的,政治算术,和格朗特的,关于死亡表的自然观察和政治观察,,开启了社会经济现象数据分析的先河。但他们所能运用的数据资源非常有限,只能算是最初级形态的数据而非真正意义上的科学数据。,他们的分析方法现在看来十分简单,但在当时非常了不起,其数据加方法的思想影响至今,特别是他们所倡导的大量观察法、统计分组法成为了
14、统计学最基本的研究方法。,特别是,格朗特通过不完整但足够量的登记数据初步发现了大数法则,提出了数据简约的概念,通过推算方法初创了生命表,探讨了数据的可信性问题,并提出了人口数的推算公式。,没有他们这种将数据与方法相结合的,“,形,”,,就不可能产生统计的,“,学,”,。,17,随着数据分析意义的显现,以及受到大量观察法的影响,人们开始尽可能多地收集数据,包括登记数据、普查数据、测量数据、实验数据和观察数据。统计学也进入到了科学数据研究阶段。,社会经济领域的数据一般都是登记数据与调查数据,为了科学表明数据的意义,实现数据表现与现象内涵的统一,就产生了用统计指标来表现数据特征的方法,即统计指标法。
15、随着分工细化、记录数据增加,在社会经济领域出现了成组、成群相关的数据,以及专门调查获得的数据(例如人口调查、产业调查等),逐渐产生了各种运用统计指标体系进行综合分析的方法,例如综合评价法、主成分分析法、聚类评判法等。,18,为了从数量上弄清楚经济运行过程中各部门、各环节之间的关系,人们研究发明了投入产出分析法。,为了科学核算经济活动成果,掌握经济总产出的构成与去向,在经济学原理和科学指标内涵的基础上,产生和发展了国民经济核算法。,为了掌握物价的综合变动,反映复杂现象的发展方向,产生了综合指数分析法。,为了掌握社会经济现象变动规律、预测未来发展趋势,产生了时间序列分析法。,19,基于实验数据,
16、统计学产生了概率论、分布理论、回归分析方法、小样本分布理论和假设检验方法。,众所周知,,14,世纪欧洲以骰子为工具的赌博非常盛行,围绕骰子可能出现的情况和赌本分配问题,再加上取球、抛掷硬币等实验,帕斯卡、费马、惠更斯、伯努利、狄莫弗等人共同研究建立了概率论,发明了大数定律,发现了二项分布与超几何分布,并为正态分布理论的建立奠定了基础。,随着概率论被引入到统计学中,帮助解决了人口推算、寿命保险、生命表编制、产品质量控制等诸多比赌博更为复杂的现实问题。,20,同样,高尔顿通过对遗传学实验数据(甜豌豆种植的实验数据)以及抽样观察数据(亲子身高的观察数据),发现了回归现象,发明了在各个领域得到广泛应用
17、的回归分析法并提出了相关系数的初步概念(相关指数),奠定了模型方程法的基础,极大地提高了人们开展统计分析的能力。,戈赛特则利用酿酒公司仅有的小样本实验数据,发明了著名的小样本,“,t,”,分布理论,推进了推断统计方法的发展。,费歇尔基于人为的女士品茶的实验数据和达尔文关于施肥方法影响作物高度的实验数据的研究,构建了假设检验的基本方法并得到了广泛的应用。,21,基于观察数据,统计学产生了误差正态分布和最小平方法。,对天文观察数据研究而形成的误差正态分布和最小平方法在统计学中具有极重要的地位。开普勒的观察数据,经过伽利略、辛普森、拉普拉斯等人的探求,最终由高斯导出了著名的误差正态分布。,凯特勒等统
18、计学家及时地将拉普拉斯的中心极限定理与高斯的误差正态理论运用于社会数据的研究,使正态分布的应用盛行一时。,在误差理论基础上,高斯、勒让德等人发现了最小平方法,并迅速从天文学和测地学的数据研究应用扩展到其他领域,尤其是与回归分析相结合后成为了统计分析最常用的方法,至今仍为主流。,皮尔逊对生物观察数据的研究,形成了皮尔逊分布族,提出了参数估计矩法,发展了相关分析法。,22,数据的获得需要投入,并且有些数据难以得到全体数据。人们自然想到:能否通过总体中部分个体的数据来达到认识总体特征、继而进行统计分析的目的?随着概率论、中心极限定理与正态分布理论的产生与发展,这种愿望成为了可能。,经过拉普拉斯、凯尔
19、马哈拉诺比斯、鲍莱、费歇尔、尼曼等人的抽样实践与理论探求,随机抽样理论在,20,世纪得到了迅速发展,并产生了多种具体的抽样方式。,基于样本数据的归纳推断方法,包括参数估计与假设检验在实践中得到了广泛的应用,抽样调查数据一度成为了统计分析的主要数据来源,如何用尽量小的样本得到尽量精确的推断成为了抽样研究的核心问题。,用抽样法获取数据已得到了,100,年的充分肯定。,23,如今,人类迈入了智能化的时代,数据的产生有了新的方式,电子化、数字化、多样化、可保存、可扩充、可兼容的大数据。这是一种基于科学技术而产生的、既具有科学数据的特征又超越于科学数据的、完全不一样的数据。,2007,年,已故图灵奖获
20、得者吉姆,格雷(,Jim Gray,)在题为,第四科学研究范式:密集型数据挖掘,的演讲中提到,科学经历几千年的历史演变形成了四个关键性的科学范式,第四个就是近几年出现的数据挖掘或,eScience,范式。,显然,从第二个研究范式开始都依赖于数据的研究。新的研究范式需要新的数据研究方法,这对统计学来说既是机遇又是挑战。,24,总结:之前,我们手中的数据量相对不足,对数据的研究是,“,由薄变厚,”,,把,“,小,”,数据变,“,大,”,,而在,“,数据大爆炸,”,时代,我们要做的是把数据,“,由厚变薄,”,,去冗分类、去粗存精。大数据时代,将呈现出,“,一方面数据很丰富、但另一方面信息又很匮乏,”
21、的现象,迫使人们对数据分析产生强烈的需求。,所以,大数据分析实际上可以理解为两个过程,一是把数据由大变小的过程,比喻为物理过程;二是从处理过的数据中提取价值的过程,比喻为化学过程。,25,三、统计学的新发展,大数据分析,(一)大数据分析是数据科学赋予统计学的新任务,目前,人们对大数据的研究主要是将其作为一种研究方法或一种新的知识发现工具,还没有把数据本身作为主要的研究目标。,大数据分析的目的就是要通过对历史数据的分析和挖掘,科学总结与发现其中蕴藏的规律和模式,并结合源源不断的动态数据去预测事物未来的发展趋势。如果说从商业的角度看,大数据要求我们改变数据思维、重视数据资产、实现数据价值(数据变
22、现),那么统计学的任务就是通过大数据分析去帮助实现这个目的。,26,对于统计学来说,开展大数据分析就是积极投身于数据科学研究之中。,数据科学(,data science,或,dataology,)一词早在,1960,年就由彼得,诺尔提出。,1996,年,在日本东京召开的题为,“,数据科学,分类和相关方法,”,的分类国际联合会上,第一次将数据科学作为会议的主题词。,2001,年,美国统计学教授威廉,.S.,克利夫兰首次将数据科学作为一门独立的学科,认为数据科学是统计学领域扩展到与以数据作为先进计算对象相结合的部分,并建立了数据科学的,6,个技术领域。,2001,年以后,国际科技数据委员会,以及有
23、关学者创办的,了关于数据科学的刊物,,发表以统计应用方法研究所有与数据有关的成果。,2012,年由,springer,出版集团创办了,“,EPJ Data Science,”,。,27,可以预见,数据科学的产生将催生一批新的研究方向,如地理信息科学、生物信息科学、生命组学等。,数据科学的重点是数据处理技术问题还是数据分析问题?,开展大数据分析、发展数据科学并不是要否定原来的统计分析方法,而是要补充、完善和创新统计分析方法。事实上,统计学业已形成的一些思想与方法在大数据分析中仍有用武之地,只是要求统计学者具有更加广阔的视野,更加重视统计分布背后的知识和规律。,28,(二)大数据分析面临的挑战,对
24、于习惯于结构化数据研究的统计学来说,大数据分析显然是一种崭新的挑战。挑战来自于大数据的复杂性、不确定性和涌现性,其中复杂性最为根本。,复杂性是大数据区别于传统数据的根本所在,它主要表现为类型复杂性、结构复杂性和内在模式复杂性三个方面,从而使得大数据的存储与分析产生多方面的困难。另外,网络大数据通常是高维的。,29,复杂性必然带来不确定性。大数据的不确定性表现为数据本身的不确定性、模型的不确定性和学习的不确定性,从而给大数据建模和学习造成困难。,大数据的不确定性与传统数据的不确定性有何不同?,是否存在,“,可能世界模型,”,?,在一定的结构规范下将数据的每一种状态都加以刻画?,针对学习的不确定性
25、非参模型方法的提出为自动学习提供了一种思路,但如何分布式、并行地应用到网络大数据的处理上?,30,涌现性是网络大数据有别于其它数据的关键特性,是大数据动态变化、扩展、演化的结果,表现为模式的涌现性、行为的涌现性和智慧的涌现性,其在度量、研判与预测上的困难使得网络数据难以被驾驭。,模式的涌现性,社会网络模型的变化,行为的涌现性,有较大相似性的个体之间容易建立社会关系,使得网络在演化过程中自发地形成相互分离的连通块。,智慧的涌现性,对来自大量自发个体的语义进行互相融合和连接而形成通用语义,整个过程随着数据的变化而持续演进。,31,总结:在大数据环境下,传统的高维表达、结构描述和群体行为分析方法不
26、能准确表示网络大数据在异构性、交互性、时效性、突发性等方面的特点,传统的“假设-模型-检验”的统计方法受到了质疑,而从“数据”到“数据”的第四范式还没有真正建立,急需一个新的理论体系来指导,建立新的分析模型。,32,(三)大数据分析的突破口,大数据分析涉及三个维度,时间、空间和数据本身,其中时间维度又包含生命周期、数据的时间态、流化与增量、时效等元素,空间维度又包含三元空间、粒度、数据传输与迁移、数据空间等元素,数据维度则体现为多源、异质、异构。,如何从三个维度的整体上对大数据的特性与复杂性进行深入的解析,系统掌握大数据的不确定性特征,继而构建高效的大数据计算模型,成为了大数据分析的突破口,具
27、体表现为以下几个方面:,33,首先,要系统了解大数据的基础性问题。大数据的基础性问题包括:大数据的内在机理大数据的演化与传播规律、生命周期,数据科学与社会学、经济学等之间的互动机制,以及大数据的结构与效能的规律性等等。将与计算机科学、统计学、人工智能、数学、社会科学等有关,离不开对相关学科领域知识与研究方法的借鉴。,同时,由于大数据往往以独特的、复杂关联的网络形式出现,因此还必须对大数据背后的网络进行深入的分析,例如能刻画出大数据背后网络共性的网络平均路径长度、度分布、聚集系数、核数、介数等性质和参数,这是开展复杂网络数据分析的基础。,34,其次,要深入研究大数据的复杂性规律。包括数据的时间规
28、律、空间规律和数据本身规律。再复杂的数据也有规律可循。只有掌握数据的复杂性规律,才能找到大数据分析的切入口,才能理解大数据复杂模式的本质特征和生成机理,进而简化大数据的表征,指导大数据计算模型和算法的设计。,就统计学而言,就是要研究大数据在时空维度上的数据分布、内在结构、动态变化和相关相联的复杂性规律,对表现多元变量分布规律的方法加以改进,关注大数据处理的可扩展性,探索多型态关联数据之间的多维、异构、隐性的关联特征,并基于统计设想和大数据驱动相结合的方式去探索大数据复杂模式的生成机理及其背后的物理意义,最终形成大数据计算与分析的方法论。,35,再次,要科学度量大数据的复杂性特征。数据分析的前提
29、是研究对象特征的度量与计算,但大数据的复杂性导致了大数据分析计算的复杂程度猛烈激增,单靠传统的数据计算模式基本不行,亟需建立面向大数据计算分析的复杂性度量理论,探索大数据高效计算模型和方法。因此,我们要寻找科学度量复杂性特征的方法。,就统计学而言,需要运用各种统计方法剖析异构关联大数据的复杂性特征的基本因素,以及这些因素之间的内在联系、外在指标和度量方法,进而研究基于先进计算技术的数据复杂性度量模型,寻求近似计算理论和优化算法框架,构建寻找面向计算的数据内核或者数据边界的基本方法。总之,研究有效易行的数据表示方法是开展大数据分析必须解决的技术难题之一。,36,第四,大胆创新大数据的计算模式。大
30、数据计算模式即数据密集型计算模式。面对大数据,传统的“假设采样验证”的模式已经难以有效分析大数据的内在规律、提取其蕴含的真实价值,因为数据的可计算性与可度量性基础已经发生了很大的变化,需要重新定义和构建。为此,需要突破传统的“数据围绕机器转”的计算模式,发展以数据为中心的、推送式的大数据计算理论与模式,设计可行的、有利于深度分析的计算算法。,就统计学而言,需要研究针对大数据的非确定性理论,突破传统的“独立同分布”假设,在探讨分布式、流式算法的基础上,构建大数据分析的计算框架。总之,要基于数据的智能方法,着力研究解决复杂问题的“海量数据,+,简单逻辑”的方法。,37,(四)需要达成的几点共识,要
31、把数据处理技术的突破与统计分析方法的创新相结合。,要把碎片化数据处理与整体统计分析相结合。,要把大数据分析与小数据研究相结合。,要把时空维度和数据维度相结合。,要把相关关系的发现与因果规律的研究相结合。,要把探索性分析与验证性分析、抽样分析与全数据分析相结合。,38,四、改变统计思维,统计思维的变化应该,以一个永恒不变的主题为前提,那就是通过数据分析揭示事物的真相,,这个真相就是事物的生存规律、联系规律和发展规律。也就是说要以数据背后的数据去还原事物的本来面目,达到求真的目的。,39,首先,认识数据的思维要变化,从来源上看,,传统的数据收集具有很强的针对性,数据的提供者大多确定,身份特征可识别
32、有的还可以进行事后核对;,但大数据通常来源于物联网,不是为了特定的数据收集目的而产生,而是人们一切可记录的信号,并且身份识别十分困难。从某种意义上讲,大数据来源的微观基础是很难追溯的。,40,从类型上看,,传统数据基本上是结构型数据,格式化、有标准;,但大数据更多的是非结构型数据或异构数据,包括了一切可记录、可存储的标识,多样化、无标准,并且不同的网络信息系统有不同的数据识别方式,相互之间也没用统一的数据分类标准。而且,现在有的数据库是非关系型的数据库,不需要预先设定记录结构。,41,结构化数据,,可用二维表结构来逻辑表达实现的数据,如数字、符号。可直接计数、计量、计算的数据。特点:先有结构
33、再有数据;,非结构化数据,,不方便用数据库二维逻辑表来表现的数据,包括所有格式的办公文档、文本、图片、,XML,、,HTML,、各类报表、图像和音频,/,视频信息等等,特点:先有数据、再有结构;,半结构化数据,,介于完全结构化数据和完全无结构的数据(如声音、图像文件等)之间的数据,例如,HTML,文档。它一般是自描述的,数据的结构和内容混在一起,没有明显的区分。,42,从量化方式上看,,传统数据的量化处理方式已经较为完善,但大数据中大量的非结构化数据如何量化、如何从中提取信息、如何与结构化数据对接是一个崭新的问题。,可以说,大数据是杂乱的、不规整、良莠不齐的,但我们不能因此而回避它、拒绝它,
34、只能接纳它,要将统计研究的对象范围从结构型数据扩展到一切数据,要重新思考数据的定义和分类方法,并以此为基础发展和创新统计分析的方法。从某种意义上讲,,没有无用的数据,只有未被欣赏的数据。,43,其次,收集数据的思维要变化,没有黏土,如何做砖?以往,找黏土,投入大而数据量有限;现在,备选“黏土”的体量与种类都极大地丰富,所要做的最重要工作就是比较与选择。,由于数据来源与种类的多样性,以及数据增加的快速性,我们在享受数据的丰富性的同时也面临这样的困境:电子存储能力能否跟得上数据增加的速度?,如果自动更新数据,就有可能失去一些宝贵的数据信息,因此人们不得不有选择地去删除那些不重要的数据。,44,如果
35、说以前有针对地获得数据叫做收集,那么今后,有选择地删除数据就意味着收集,。我们除了继续用传统的方式方法去收集特定需要的数据外,还要善于利用现代网络信息技术去收集一切相关的数据,并善于从大数据集中进行再过滤、再选择。,因此,我们要做好丢弃一部分数据的准备。,问题在于什么是不重要的数据?该如何过滤与选择?,此外,大的数据库可能需要将信息分散在不同的硬盘或电脑上,这样一来,在不能同步更新数据信息的情况下如何选择、调用和匹配数据又是一个问题。,因此,从某种意义上讲,,大数据的收集就是识别、整理、提炼、汲取(删除)、分配和存储的过程。,45,再次,分析数据的思维要变化,第一,统计分析过程从,“,定性,定
36、量,再定性,”,,,变为,“,定量,定性,”,。,第二,实证分析思路从,“,假设,验证,”,变为,“,发现,总结,”。,第三,统计推断分析从,“,分布理论,概率保证,推断总体,”,变为,“,实际分布,总体特征,概率判断,”,。,46,伴随着上述三大变化,统计分析评价的标准又该如何变化?,评价的标准无非两个方面,,一是可靠性评价,二是有效性评价。,47,第四,统计学如何应对大数据?,(一)改变总体、个体乃至样本的定义方式,(二)改变对不确定性的认识,(三)建立新的数据梳理与分类方法,(四)强化结构化数据与非结构化数据的对接研究,(五)转变抽样调查的功能,(六)归纳推断法与演绎推理法并用,(七)统计技术与云计算技术融合,48,结语:,数据创造统计,流量创新分析!,由于各个应用领域的不断变化,特别是数据来源与类型的不断变化,使得统计学还难以成为一门真正成熟的科学。,在数据分析的世界里,驾驭不断扩展的大数据必将成为统计学今后发展的动力。,49,谢谢!,50,






