资源描述
单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,第一章数据与大数据时代,1.1,从数据到大数据,1.2,大数据的概念,1.3,大数据思维,1.5,大数据处理流程,数据科学与大数据技术导论,of,38,1,1.6,大数据应用,1.4,数据科学的内涵,1.1,从数据到大数据,第一章 数据和大数据时代,of,38,2,1,数据及数据的作用,知识金字塔DIKW,数据:原始素材,客观事物性质或状态的描述,文字、图形、图像、视频等类型,信息:排序,筛选,公式等加工处理后有逻辑的数据,知识:提炼信息之间的联系、行动的能力,完成任务,智慧:关心未来,具有预测的能力,1.1,从数据到大数据,第一章 数据和大数据时代,of,38,3,1,数据及数据的作用,数据的作用:志愿填报,历年、各省、文理科、各专业,分数线,历年高校各专业分数线、线上、线下、位次、最高、最低、平均等;,历年、各高校、各专业在各省的招生人数,三年或五年高校招生趋势:位次变化、均值变化、最值变化、招生人数变化等。志愿填报规则,从知识中,发现规律,做出决策,填报志愿:可能出现,2,种情况:如愿或失意,体现智慧,1.1,从数据到大数据,of,38,4,来自大量传感器的机器数据,科学研究及行业多结构专业数据,来自“大人群”泛互联网数据,智能终端拍照、拍视频,发微博、发微信,其他互联网数据,2.海量的数据的产生,随着人类活动的进一步扩展,数据规模会急剧膨胀,包括金融、汽车、零售、餐饮、电信、能源、政务、医疗、体育、娱乐等在内的各行业累积的数据量越来越大,数据类型也越来越多、越来越复杂,已经超越了传统数据管理系统、处理模式的能力范围,于是“大数据”时代到来,。,第一章 数据和大数据时代,of,38,5,1,2008,年,9,月,美国自然(,Nature,)杂志专刊,The next google,第一次正式提出“大数据”概念,。,2,2011,年,2,月,1,日,科学(,Science,)杂志专刊,Dealing with data,,通过社会调查的方式,第一次综合分析了大数据对人们生活造成的影响,详细描述了人类面临的“,数据困境,”,。,3,2011,年,5,月,麦肯锡研究院发布报告,Big data:The next frontier for innovation,competition,and productivity,第一次给大数据做出相对清晰的定义:,“大数据是指其大小超出了常规数据库工具获取、储存、管理和分析能力的数据集。”,“数据”变身“大数据”,“开启了一次重大的时代转型”,。,“大数据”这一概念的形成,有三个标志性,事件,3,大数据的到来,第一章 数据和大数据时代,1.1,从数据到大数据,大数据,数据源整合进行存储、清洗、挖掘、分析后得出结果直到优化企业管理提高效率,云计算、硬件性价比的提高以及软件技术的进步,智能设备、传感器的普及,推动物联网、人工智能的发展,计算力,运行、计算速度越来越快,存储,存储成本下降,存储容量增加,智能分析,实现信息对等解放脑力,机器拥有人的智慧,of,38,6,(,1,),大数据的技术支撑,1.1,从数据到大数据,第一章 数据和大数据时代,of,38,7,存储:存储成本的下降,云计算出现之前,云计算出现之后,云计算出现前,,,数据存储成本,是,非常高,的,。,例如,公司要建设网站,需要,购置和部署服务器,安排技术人员维护服务器,,保证数据存储的安全性和数据传输的畅通性,还会定期清理数据,腾出空间以便存储新的数据,机房整体的人力和管理成本都很高。,云计算出现后,数据存储服务衍生出了新的商业模式,,数据中心的出现降低了公司的计算和存储成本,。,例如,公司现在要建设网站,不需要去购买服务器,不需要去雇用技术人员维护服务器,可以通过,租用硬件设备的方式,解决问题。,存储成本的下降,,也改变了大家对数据的看法,更加愿意把1年、2年甚至更久远的历史数据保存下来,有了历史数据的沉淀,才可以通过对比,发现数据之间的关联和价值。正是由于存储成本的下降,才能为大数据搭建最好的基础设施。,1.1,从数据到大数据,第一章 数据和大数据时代,of,38,8,计算力:运算速度越来越快,集中式处理,:,AI,芯片:,CPU,(,Intel,),、,GPU,(NVIDIA),、美国Cerebras的,WSE,(Wafer Scale Engine,,,世界最大的芯片),分布式系统,基础架构Hadoop的出现,为大数据带来了新的曙光;,HDFS,为海量的数据提供了存储;,MapReduce,则为海量的数据提供了并行计算,从而大大提高了计算效率;,Spark、Storm、Impala等各种各样的技术进入人们的视野。,海量数据从原始数据源到产生价值,期间会经过存储、清洗、挖掘、分析等多个环节,如果计算速度不够快,很多事情是无法实现的。所以,在大数据的发展过程中,,计算速度是非常关键的因素,。,第一章 数据和大数据时代,1.1,从数据到大数据,of,38,9,智能:机器拥有理解数据的能力,大数据带来的最大价值就是“智慧”,,大数据让机器变得有智慧,同时人工智能进一步提升了处理和理解数据的能力。例如:,谷歌AlphaGo,大胜世界围棋冠军李世石,阿里云小Ai,成功预测出我是歌手的总决赛歌王,1,2,iPhone上智能化,语音机器人Siri,微信上与大家聊天的,微软小冰,3,4,第一章 数据和大数据时代,1.1,从数据到大数据,of,38,10,美国著名管理学家爱德华戴明所言:“,我们信靠上帝。除了上帝,任何人都必须用数据来说话。,”,(,1,)有数据可说,在大数据时代,“万物皆数”,“量化一切”,“一切都将被数据化”。,数据无处不在、无时不有、无人不用,数据就像阳光、空气、水分一样常见。,(,2,)说数据可靠,大数据中的“数据”真实可靠。一切事物都存在着时空一致性的同构关系。这意味着任何事物的属性和规律,只要通过适当编码,均可以通过统一的数字信号表达出来。,(2),大数据的意义,“,用数据说话,”、“,让数据发声,”,,已成为人类认知世界的一种全新方法。,1.1,从数据到大数据,第一章 数据和大数据时代,第一章数据与大数据时代,1.1,从数据到大数据,1.2,大数据的概念,1.3,大数据思维,数据科学与大数据技术导论,of,38,11,1.5,大数据处理流程,1.6,大数据应用,1.4,数据科学的内涵,of,38,12,1.,大数据的定义,第一章 数据和大数据时代,1.2,大数据的概念,麦肯锡(全球管理咨询公司),:大小超出典型数据库软件工具收集、存储、管理和分析能力的数据集。,百度百科,:指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。,of,38,13,2.,大数据的,结构,第一章 数据和大数据时代,1.2,大数据的概念,国家,粮食总产量(亿吨),耕地面积(亿亩),占世界耕地比例(,%,),中国,5.01,18.15,8.06,美国,3.63,29.55,13.15,印度,2.16,25.5,11.32,巴西,1.33,12.9,5.76,加拿大,0.51,10.2,4.52,澳大利亚,0.31,7.65,3.45,(,1,)结构化数据,结构化数据,也称作行数据,是以,先有结构、后有数据,的方式生成的数据,。,特点:数据以行为单位,一行数据表示一个实体信息,每一行数据的属性相同,下表给出了主要农业国粮食产量与耕地情况,它们是,结构化数据,。,(,2,)非结构化数据,非结构化数据是指,数据结构不规则或不完整、没有预先定义的数据模型,,很难用关系数据库的二维逻辑表来表现的数据,比如,办公文档、文本、图片、图像和音频,/,视频,信息等等都是非结构化数据。,of,38,14,2.,大数据的,结构,第一章 数据和大数据时代,1.2,大数据的概念,(,3,)半结构化数据,半结构化数据是介于,结构化数据和非结构化数据之间,的数据。半结构化数据包含相关标记,用来分隔语义元素以及对记录和字段进行分层。因此,也被称为,自描述结构,。半结构化数据中,同一类实体可以有不同属性,而且这些属性的顺序也可不同。,XML,格式数据,JSON,格式数据,18.7,75.2,58.8,1703.9,1387.2,1156.2,8104.3,部分地区主要作物产量(万吨),:,北京,:,小麦,:18.7,玉米,:75.2,河北,:,稻谷,:58.8,玉米,:1703.9,小麦,:1387.2,广西,:,稻谷,:1156.2,甘蔗,:8104.3,5 V,特征,种类多(,V,ariety,),速度快(,V,elocity,),价值高(,V,alue,),体,量,大,(,V,olume,),大数据与传统数据相比,数据来源广、维度多、类型杂,各种机器仪表在自动产生数据的同时,人自身的生活行为也在不断创造数据;不仅有企业组织内部的业务数据,还有海量相关的外部数据。,随着现代感测、互联网、计算机技术的发展,数据生成、储存、分析、处理的速度远远超出人们的想象力,这是大数据区别于传统数据或小数据的显著特征。,大数据有巨大的潜在价值,但同其呈几何指数爆发式增长相比,某一对象或模块数据的价值密度较低,这无疑给我们开发海量数据增加了难度和成本。,of,38,15,从,2013,年至,2020,年,人类的数据规模将扩大,50,倍,每年产生的数据量从,TB,转向,PB,、从,PB,增长到,ZB,级别,,且每,18,个月翻一番。,真实性(,V,eracity,),3.,大数据的,5V,特征,第一章 数据和大数据时代,1.2,大数据的概念,数据的有效性、真实性以及数据提供者信誉值得研究,第一章数据与大数据时代,1.1,从数据到大数据,1.2,大数据的特征,1.3,大数据思维,数据科学与大数据技术导论,of,38,16,1.5,大数据处理流程,1.6,大数据应用,1.4,数据科学的内涵,1.3,大数据思维,of,38,17,第一章 数据和大数据时代,科学界一般认为,科学方法分为实验、理论和计算三大类,与三大科学方法相对的是三大科学思维。,实验科学,-,实证思维,:以实验为基础,以物理学科为代表。,理论科学,-,理论思维,:以推理和演绎为特征,以数学学科为代表。,计算科学,-,计算思维,:以设计和构造为特征,以计算机学科为代表。,(,1,)科学研究的三种方法及思维,计算机科学家,吉姆格雷,认为,鉴于数据的爆炸性增长,数据密集范式理应并且已经从第三范式即计算范式中分离出来,成为一个独特的科学研究范式,即“,第四范式,”。,数据密集型:,数据科学,数据思维,(,2,)科学发现的,第四范式,1.,数据思维的由来,社会科学研究将面临对传统方法的颠覆性挑战,新的研究范式将会建立,一个社会科学研究的全新时代到来。,1.3,大数据思维,of,38,18,第一章 数据和大数据时代,2.,大数据时代下的数据思维,全样本而非抽样,:数据不抽样,而是全部数据,互联网、物联网的发展,数据数字化程度大大提高,类型丰富,案例:乔布斯与癌症治疗,1.3,大数据思维,of,38,19,第一章 数据和大数据时代,重视数据的复杂性,弱化精确性,数据结构多样、海量,允许不精确;可用简单方法实现较好的智能。,案例:谷歌翻译,数据混杂是关键,2.,大数据时代下的数据思维,1.3,大数据思维,of,38,20,第一章 数据和大数据时代,关注数据的相关性,而非因果关系:,是相关关系,不是因果关系。,案例,大数据背景下,让许多看似毫不相干的现象之间发生一定的关联,使人们能够更简捷、更清晰地认知事物和把握局势,真正的价值所在。,(,1,)啤酒与尿布,(,2,)谷歌与流感,2.,大数据时代下的数据思维,第一章数据与大数据时代,1.1,从数据到大数据,1.2,大数据的特征,1.3,大数据思维,数据科学与大数据技术导论,of,38,21,1.5,大数据处理流程,1.6,大数据应用,1.4,数据科学的内涵,1.4,数据科学的内涵,of,38,22,第一章 数据和大数据时代,1.,数据科学的内涵,2010,年,,Drew Conway,首次明确探讨了数据科学的学科定位问题,是交叉型学科。数据科学家需要掌握三大方面的能力:,数学与统计知识、领域实战经验和黑客精神,,三个要素,知识、实战和精神,(黑客精神是“热衷挑战,+,主张分享,+,追求创新),1.4,数据科学的内涵,of,38,23,第一章 数据和大数据时代,2.,数据科学新解,2016,年,,Gartner,在他的博客上用韦恩图重做了数据解决方案,并使其更漂亮和更加基于数据科学。图中,“危险区”,被替换为,“数据工程师”,(这种表达被许多科学家认同),第一章数据与大数据时代,1.1,从数据到大数据,1.2,大数据的特征,1.3,大,数据,思维,1.5,大数据处理流程,数据科学与大数据技术导论,of,38,24,1.6,大数据应用,1.4,数据科学的内涵,1.5,大数据处理流程,of,38,25,采 集,利用多个数据库来接受传感、社交、互联网等客户端数据,导入,/,预处理,数据清洗和预处理,存储,/,管理,利用分布式文件系统和非关系型数据库管理复杂结构的大数据,统计,/,分析,对存储的海量数据进行普通的分析和分类汇总等,数据挖掘与可视化,基于各种算法进行计算,实现高级数据分析,并将结果可视化,第一章 数据和大数据时代,1.5,大数据处理流程,of,38,26,大数据采集,1,大数据的采集通常采用多个数据库来接收终端数据,包括智能,硬件端、多种传感器端、网页端、移动,APP,应用端,等,并且可以使用数据库进行简单的处理工作。,常用的数据采集的方式主要包括以下几种:,网页数据抓取,01,日志采集,02,APP,、物联网传感设备等自动信息采集,03,第一章 数据和大数据时代,1.5,大数据处理流程,of,38,27,导入,/,预处理,2,虽然采集端本身有很多数据库,但是如果要对这些海量数据进行有效的分析,还是应该将这些数据,导入到一个集中的大型分布式数据库或者分布式存储,集群,中,。,同时,在导入的基础上完成数据清洗和预处理工作。,现实世界中数据大体上都是,不完整、不一致的“脏”数据,,无法直接进行数据挖掘,或挖掘结果差强人意,为了提高数据挖掘的质量,产生了数据预处理技术。,数据清理,数据集成,数据变换,数据归约,主要是达到数据格式标准化、异常数据清除、数据错误纠正、重复数据的清除等目标。,是将多个数据源中的数据结合起来并统一存储,建立数据仓库。,过平滑聚集、数据概化、规范化等方式将数据转换成适用于数据挖掘的形式。,寻找依赖于发现目标的数据的有用特征,缩减数据规模,最大限度地精简数据量。,第一章 数据和大数据时代,1.5,大数据处理流程,of,38,28,存储与管理,3,针对大数据时代的复杂结构化数据,特别是半结构化数据和非结构化数据的海量存储和分布式存储需求,大数据存储主要采用,分布式文件系统、,NoSQL,数据库以及云存储等技术,。,第一章 数据和大数据时代,分布式文件系统,:利用集群的存储和运算,实现可靠、可扩展、低成本的存储计算需求。,非关系型数据库,NoSQL,:具备优良的查询性能、灵活性和可用性,云存储技术,:被优化或部署到一个虚拟计算环境中的数据库,可按需付费、按需扩展等优势。,1.5,大数据处理流程,of,38,29,统计与分析,4,统计与分析主要是利用分布式数据库,或分布式计算集群来对存储于其内的,海量数据进行普通的分析和分类汇总,,以满足大多数常见的分析需求,在这些方面可以使用R语言。,R语言是用于统计分析、绘图的语言和操作环境,属于GNU系统的一个自由、免费、源代码开放的软件,它是一个用于,统计计算和统计制图的优秀工具,。,R语言在国际和国内的发展差异非常大,国际上R语言已然是,专业数据分析领域的标准,,但在国内依旧任重而道远,这固然有数据学科地位的原因,国内很多人版权概念薄弱,以及学术领域相对闭塞也是原因。,R语言是一套完整的,数据处理、计算和制图软件系统,。R语言的思想是:它可以提供一些集成的统计工具,但更大量的是它提供各种数学计算、统计计算的函数,从而使使用者能灵活机动地进行数据分析,甚至创造出符合需要的新的统计计算方法。,第一章 数据和大数据时代,1.5,大数据处理流程,of,38,30,大数据挖掘,5,数据挖掘是创建数据挖掘模型的一组试探法和计算方法,通过对提供的数据进行分析,,查找特定类型的模式和趋势,最终形成创建模型,。,分类,朴素贝叶斯算法,一种重要的数据分析形式,根据重要数据类的特征向量值及其他约束条件,构造分类函数或分类模型,目的是根据数据集的特点把未知类别的样本映射到给定类别中。,支持向量机,SVM,算法,AdaBoost,算法,决策树,算法,聚类,BIRCH,算法,目的在于将数据集内具有相似特征属性的数据聚集在一起,同一个数据群中的数据特征要尽可能相似,不同的数据群中的数据特征要有明显的区别。,K-Means,算法,期望最大化算法(,EM,算法),K,近邻算法,关联规则,Apriori,算法,搜,索系统中的所有数据,找出所有能把一组事件或数据项与另一组事件或数据项联系起来的规则,以获得预先未知的和被隐藏的,不能通过数据库的逻辑操作或统计的方法得出的信息。,FP-Growth,算法,预测模型,序贯模式挖掘,SPMGC,算法,一种统计或数据挖掘的方法,包括可以在结构化与非结构化数据中使用以确定未来结果的算法和技术,可为预测、优化、预报和模拟等许多业务系统所使用。,回归模型,第一章 数据和大数据时代,1.5,大数据处理流程,of,38,31,大数据可视化,6,第一章 数据和大数据时代,帮助人们探索和理解可视化的数据,可视化之美。用各种方式展现不同的数据。,(,1,)标签云:文本可视化,1.5,大数据处理流程,of,38,32,大数据可视化,6,第一章 数据和大数据时代,(,2,)热图:空间数据可视化,用颜色标识密度,航线分布,1.5,大数据处理流程,of,38,33,大数据可视化,6,第一章 数据和大数据时代,(,3,)图表:数据可视化,1.5,大数据处理流程,of,38,34,大数据可视化,6,(,4,)仪表盘:综合数据可视化,第一章 数据和大数据时代,第一章数据与大数据时代,1.1,从数据到大数据,1.2,大数据的特征,1.3,大,数据,思维,数据科学与大数据技术导论,of,38,35,1.6,大数据应用,1.5,大数据处理流程,1.4,数据科学的内涵,1.6,大数据应用,of,38,36,1.,大数据行业应用,第一章 数据和大数据时代,大数据应用,农业,教育行业,社交,金融行业,交通行业,旅游行业,1.6,大数据应用,of,38,37,2.,大数据应用途径,第一章 数据和大数据时代,数据化,收集数据:,采集、购买、爬取,等方式,数据互通互联:确定数据标准,建立统一平台,消除信息孤岛,算法化,封装算法,,迭代优化算法,完成机器学习,实现人工智能,产品化,数据产品,:封装用户、数据和算法,市场决策分析、精准营销推送、用户行为特征分析、提升用户体验,生态化,数据交换,/,交易平台,:数据流动、交易、整合关联,才有价值,算法经济,/,生态,:算法交易,智能助理。,1,试分析数据、信息、知识和智慧的特点和关联关系。,2,请举例说明结构化数据、半结构化数据、非结构化数据的区别。,3,什么是大数据的,4V,或,5V,特征?这一特征对大数据计算过程带来什么样的挑战?,4,如何认识大数据思维,请举例说明。,5,如何理解数据科学?,6,大数据关键技术有哪些?,7,结合一个具体例子,说明大数据处理的一般过程。,8,什么是数据挖掘,大数据分析挖掘方法有,哪几类?,9,简述大数据的应用场景。,习题,第二章大数据获取和预处理,2.1,大数据获取和预处理概述,2.2,大数据获取方法,2.3,数据预处理技术,数据科学与大数据技术导论,of,109,39,of,109,40,2.1,大数据获取和预处理概述,第二章 大数据获取和预处理,2.1.1,数据的来源,2.1.2,数据质量概述,2.1.3,数据预处理概述,of,109,41,2.1.1,数据的来源,第二章 大数据获取和预处理,系统日志数据,来自于,WEB,服务器日志、企业,ERP,系统、各种,POS,终端及网上支付等业务系统数据,互联网数据,用户通过网络所留下的痕迹(如浏览网页、发送邮件等),互联网运营商在日常运营中生成和累积的用户网络行为数据,物联网数据,如来自传感器、量表和其他设施的数据、定位系统数据等,各种,信息系统数据,存储在关系型数据库或非关系型数据库中的数据,of,109,42,2.1.1,数据的来源,第二章 大数据获取和预处理,互联网每天产生的全部内容可以刻满,6.4,亿张,DVD,Google,每天需要处理,24PB,的数据,网民每天在,Facebook,上要花费,234,亿分钟,被移动互联网使用者发送和接收的数据高达,44PB,全球每秒发送,290,万封电子邮件,一分钟读一篇的话,足够一个人昼夜不停地读,5.5,年,每天会有,2.88,万个小时的视频上传到,YouTube,,足够一个人昼夜不停地观看,3,年,Twitter,上每天发布,5000,万条消息,假设,10,秒就浏览一条消息,足够一个人昼夜不停地浏览,16,年,互联网数据,of,109,43,2.1.2,数据质量概述,第二章 大数据获取和预处理,数据质量的评估标准,完整性,准确性,一致性,及时性,数据记录和信息,是否完整,是否存在缺失,的状况,数据中记录的信息和数据,是否准确,,是否存在异常或错误,存储在不同系统中的同一个数据,,是否存在差异或相互矛盾,保障数据能够,及时产出,,这样,才能体现数据的价值,of,109,44,2.1.3,数据预处理,第二章 大数据获取和预处理,数据清洗,对数据进行重新审查和校验的过程,数据集成,将来自多个数据源数据整合归纳在一起形成一个统一的数据集合,数据规约,降低数据规模,但仍大致保持原数据的完整性,数据变换,对数据进行转换或归并,从而构成一个适合数据处理的形式,数据预处理的主要流程,第二章大数据获取和预处理,2.2,大数据获取方法,2.1,大数据获取和预处理概述,2.3,数据预处理技术,数据科学与大数据技术导论,of,109,45,of,109,46,2.2,大数据获取方法,第二章 大数据获取和预处理,1,分布式日志采集,网络系统中,各式各样的服务产生的各种日志文件的采集,2,网络爬虫,自动在互联网中进行数据信息的采集与整理,3,其他获取方法,APP,应用获取,传感器设备获取,应用系统获取,of,109,47,2.2.1,分布式日志采集,第二章 大数据获取和预处理,1.,分布式采集流程,(,1,)分布式日志采集与分析的主要流程,日志采集组件将日志,以消息的方式通过数据管道发送,到日志分析组件,并最终生成存储文件。,of,109,48,2.2.1,分布式日志采集,第二章 大数据获取和预处理,这一流程可以想象为教师评判作业的过程,of,109,49,2.2.1,分布式日志采集,第二章 大数据获取和预处理,(,2,)分布式日志采集流程中的主要部分及功能,采集组件,离线采集和在线采集,数据管道,连接采集组件及日志分析组件的数据通道,日志处理,将非结构化的日志记录转化为结构化的易于存储和检索的日志信息,存储与检索,日志收集后进行存储并提供检索与分析功能,of,109,50,2.2.1,分布式日志采集,第二章 大数据获取和预处理,2.,日志采集关键技术,(,1,)日志采集模式,一般的日志采集可以分为两种模式:,推模式和拉模式,推模式,由,Agent,主动的向目的端发送日志,,目的端在接收到日志之后将数据存储起来,拉模式,由,Master,主动发起日志,获取动作,然后在各个,Agent,上将日志拉到,Master,节点,of,109,51,2.2.1,分布式日志采集,第二章 大数据获取和预处理,2.,日志采集关键技术,(,2,)消息队列传递模式,采用,异步通信,降低应用耦合,保证消息的顺序性、可靠性。,主要有两种消息传递模式:,点对点传递模式、发布,-,订阅模式,。,of,109,52,2.2.1,分布式日志采集,第二章 大数据获取和预处理,点对点消息传递模式(一对一),消息生产者将消息发送到一个队列中,此时,将有一个或多个消费者消费队列中的消息。但是,一个消息只能被消费一次,。当一个消费者消费了队列中的某个消息之后,该,消息将从消息队列中删除,。,Consumes 1,Consumes 2,Consumes m,Producer 1,Producer 2,Producer n,MSG,MSG,Queue,of,109,53,2.2.1,分布式日志采集,第二章 大数据获取和预处理,发布,-,订阅消息传递模式,在发布,-,订阅模式中,消息生产者将消息发布到一个,Topic,中,,消费者可以订阅一个或多个,Topic,,,同一个消息也可以被多个消费者消费,,消息被消费后不会立即删除。,Subscriber 1,Subscriber 2,Subscriber m,Publisher 1,Publisher 2,Publisher n,MSG,MSG,MSG,MSG,MSG,Topic,of,109,54,2.2.1,分布式日志采集,第二章 大数据获取和预处理,3.,常见的日志采集平台,(,1,),Chukwa,一个开源的用于监控大型分布式系统的数据收集系统,构建在,Hadoop,的,HDFS,和,MapReduce,框架之上,可用于监控大规模,Hadoop,集群的整体运行情况并对它们的日志进行分析。,包含了一个强大而灵活的工具集,可用于展示、监控和分析已收集的数据。,of,109,55,2.2.1,分布式日志采集,第二章 大数据获取和预处理,(,1,),Chukwa,Chukwa,架构,of,109,56,2.2.1,分布式日志采集,第二章 大数据获取和预处理,(,1,),Chukwa,Chukwa,架构,Adaptor,直接采集数据的接口和工具,Agent,负责给,Adaptor,提供各种服务,Collector,Agent,采集到的数据,通过,Collector,存储到,HDFS,上,Demux,和,Archive,Demux,负责对数据的分类、排序和去重,Archive,负责把同类型的数据文件合并,HICC,HICC,是,Chukwa,数据展示端的名称,of,109,57,2.2.1,分布式日志采集,第二章 大数据获取和预处理,(,2,),Flume,是一个分布式、可靠、高可用的海量日志采集、聚合和传输的系统,其支持在日志系统中定制各类数据发送方,用于收集数据;同时,,Flume,提供对数据进行简单处理的能力。,Flume,可看作是一个管道式的日志数据处理系统。,Flume,运行的核心是,Agent,。,of,109,58,2.2.1,分布式日志采集,第二章 大数据获取和预处理,(,2,),Flume,Flume,核心结构,Source,Sink,Channel,Web Server,HDFS,Agent,of,109,59,2.2.1,分布式日志采集,第二章 大数据获取和预处理,(,2,),Flume,Flume,核心结构,Source,:,数据的收集端,,主要负责获取数据并进行格式化,进一步将数据封装到事件(,Event,)里,最后将事件推入,Channel,中。,Avro Source,Exce,Source,HTTP Source,Source,Event,Event,Event,Source,工作流程图,of,109,60,2.2.1,分布式日志采集,第二章 大数据获取和预处理,(,2,),Flume,Flume,核心结构,Channel,:连接,Source,和,Sink,的组件,它可以将事件暂存到内存中,也可以持久化到本地磁盘上,直到,Sink,处理完该事件。主要提供,Memory Channel,、,JDBC Chanel,、,File Channel,等类型。,Sink,:存储组件,负责取出,Channel,中的数据,并保存在文件系统、数据库系统等存储系统中,或者提交到远程服务器。,Sink,Event,Event,Event,存储系统,of,109,61,2.2.1,分布式日志采集,第二章 大数据获取和预处理,(,3,),Kafka,Linkedin,公司开发的一个分布式、支持分区的、多副本的、基于,ZooKeeper,协调的分布式日志系统,可以用于,Web/Nginx,日志、访问日志、消息服务等等。,Kafka,主要应用场景是:日志收集系统和消息系统。,of,109,62,2.2.1,分布式日志采集,第二章 大数据获取和预处理,(,3,),Kafka,Kafka,的系统架构,of,109,63,2.2.1,分布式日志采集,第二章 大数据获取和预处理,(,3,),Kafka,在,kafka,中,消息是,按,Topic,组织,的。,Topic,是一个消息的集合。每个,Topic,可以有多个生产者向它发送消息,也可以有一个或多个消费者来消费该,Topic,中的消息。而每个,Topic,又会分为多个,Partition,,这样便于管理数据和进行负载均衡。,Topic,分区,of,109,64,2.2.1,分布式日志采集,第二章 大数据获取和预处理,(,3,),Kafka,Kafka,中三个主要角色:,Broker,,,Producer,和,Consumer,。,Broker,(代理),Kafka,单个节点称为,Broker,,一个,Kafka,服务就是一个,Broker,,多个,Broker,可以组成一个,Kafka,集群。,Producer,(生产者),Producer,是数据的发布者,负责将消息发布到,Kafka,的,Topic,中。,Consumer,(消费者),Consumer,从,Broker,处读取数据。消费者订阅一个或多个主题,并通过从代理中提取数据来使用已发布的消息。,of,109,65,2.2.1,分布式日志采集,第二章 大数据获取和预处理,(,4,),Scribe,Scribe,是,Facebook,开源的日志收集系统,在,Facebook,内部已经得到大量应用。,Scribe,从各种数据源上收集数据,放到一个共享队列上,然后将消息推送到后端的中央存储系统上。,Scribe,最重要的特点是容错性好。,Scribe,通常与,Hadoop,结合使用,,Scribe,用于向,HDFS,中推送日志消息,而,Hadoop,通过,MapReduce,作业进行定期处理。,of,109,66,2.2.1,分布式日志采集,第二章 大数据获取和预处理,(,4,),Scribe,Scribe,的架构,Scribe,数据日志,Scribe Agent,Scribe Agent,Scribe Agent,Scribe,数据库,HDFS,中央存储系统,of,109,67,2.2.1,分布式日志采集,第二章 大数据获取和预处理,(,4,),Scribe,Scribe,的架构,Scribe Agent,Scribe Agent,实际上是一个,Thrift Client,,也是向,Scribe,发送数据的唯一方法。,Scribe,Scribe,提供了各种各样的存储系统,如,File,,,HDFS,等,,Scribe,可将数据加载到这些存储系统中。,存储系统,用于持久化数据,of,109,68,2.2.2,网络爬虫,第二章 大数据获取和预处理,1.,网络爬虫概念,网络爬虫也被称为网络蜘蛛、网络蚂蚁、网络机器人等。,是一种按照一定的规则、自动请求万维网网站并提取网络数据的程序或脚本。,of,109,69,2.2.2,网络爬虫,第二章 大数据获取和预处理,1.,网络爬虫分类,网络爬虫可分为四种类型,网络爬虫,通用网络爬虫,聚焦网络爬虫,增量式网络爬虫,深层网络爬虫,of,109,70,2.2.2,网络爬虫,第二章 大数据获取和预处理,1.,网络爬虫分类,(,1,)通用网络爬虫,通用网络爬虫(又称全网爬虫):将爬取对象从一些种子,URL,扩充到,整个网络,,一般用于搜索引擎。,常见通用网络爬虫有:,百度爬虫,Baiduspider,,谷歌爬虫,Googlebot,,,soso,爬虫,sosospider,,,360,爬虫:,360spider,主要特点:,爬取目标数量巨大,对爬取性能和存储空间要求较高,对于爬取页面的顺序要求相对较低,爬行的结果中会包含大量用户不需要的网页,of,109,71,2.2.2,网络爬虫,第二章 大数据获取和预处理,1.,网络爬虫分类,(,2,)聚焦网络爬虫,聚焦网络爬虫又称为,主题网络爬虫,:选择性地爬取那些与,预先定义好的主题相关页面,。,主要特点:,可过滤掉海量网页中与主题不相关的或者相关度较低的网页,极大地节省了硬件和网络资源,保存的页面也由于数量少而更新快,of,109,72,2.2.2,网络爬虫,第二章 大数据获取和预处理,1.,网络爬虫分类,(,3,)增量式网络爬虫,对已下载网页采取增量式更新和,只爬取新产生的或者已经发生变化网页的爬虫,,能够在一定程度上保证所爬取的页面是尽可能新的页面。,主要特点:,只会在需要的时候爬取新产生或发生更新的页面,并不重新下载没有发生变化的页面,可,有效减少数据下载量,减小时间和空间上的耗费,要具有,能够辨别网页页面是否有更新数据或者是否有新的相关网页出现的能力,,因此增加了爬行算法的复杂度和实现难度,of,109,73,2.2.2,网络爬虫,第二章 大数据获取和预处理,1.,网络爬虫分类,(,4,)深层网络爬虫,深层网络爬虫:通过提交表单的方式访问并爬取深层页面信息,爬虫爬取过程中最重要部分就是表单的填写,包含两种类型,基于领域知识的表单填写,基于网页结构分析的表单填写,of,109,74,2.2.2,网络爬虫,第二章 大数据获取和预处理,2.,网络爬虫方法,(,1,)网络爬虫工作原理,根据预先设定的一个或若干个,初始网页的,URL,开始,,获取初始网页上的,URL,列表,然后按照一定的规则抓取网页。,每当抓取一个网页时,爬虫会,提取该网页上新的,URL,并放入未抓取的,URL,队列中,,接着再从未抓取的队列中取出一个,URL,再次进行新一轮的抓取。,不断重复上述过程,直到队列中的,URL,抓取完毕或者满足系统其它的停止条件,爬虫才会结束。,of,109,75,2.2.2,网络爬虫,第二章 大数据获取和预处理,2.,网络爬虫方法,(,1,)网络爬虫工作原理,将已下载,URL,放进已抓取,URL,队列,种子,URL,待抓取,URL,已下载网页库,已抓取,URL,读取,URL,、,DNS,解析、,网页下载,抽取出新的,URL,放入待抓取,URL,队列,网络爬虫工作流程图,of,109,76,2.2.2,网络爬虫,第二章 大数据获取和预处理,2.,网络爬虫方法,(,2,)网络爬虫抓取策略,深度优先搜索,从初始网页开始,选择一个,URL,进入,在下载网页中获取到新的,URL,,接着选择一个再进入,如此不断深入,直到返回的网页中没有,URL,为止,广度优先搜索,先抓取初始网页中的所有网页,然后再选择其中的一个链接网页,继续抓取在此网页中链接的所有网页,当同一层次的页面全部搜索完毕后,再深入下一层继续搜索,直到底层为止,最佳优先搜索,按照一定的网页分析算法,根据“最好最优原则”进行访问,选取评价最好的一个或几个,URL,进行抓取。,of,109,77,2.2.2,网络爬虫,第二章 大数据获取和预处理,2.,网络爬虫方法,(,3,)爬虫的合法性,大多数网站允许将所爬取的数据用于个人使用或科研领域,但如果将爬取的数据用于,商业用途,,则有可能会,触犯法律,。,使用爬虫爬取网站数据时,需要,
展开阅读全文