资源描述
,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,2021/11/27,#,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,单击此处编辑母版标题样式,单击此处编辑母版文本样式,二级,三级,四级,五级,11/27/2021,#,第,1,章 大数据可视化概述,1,大数据可视化,目录,CONTENTS,大数据可视化的概念,大数据可视化的作用与意义,1,2,3,大数据可视化的发展史,大数据可视化的应用领域,4,大数据可视化面临的挑战,5,大数据可视化技术的发展方向,6,1.,大数据可视化的概念,数据,大数据,大数据可视化,1.,大数据可视化的概念,1.1,数据,数据,数据是一种未经加工的原始资料,是客观对象的表示。,借助数据来表示一定的含义,传递一定的信息。因此,信息则是数据内涵的意义,是数据的内容和解释。,信息与数据是不可分离的,数据是信息的表达,信息是数据的内涵。数据本身并没有意义,数据只有对实体行为产生影响时才成为信息。,90,就是一个数据,可以表示小明这次语文考试得了,90,分,也可表示今天小王充了,90,元话费。,1.,大数据可视化的概念,1.1,数据,数据的分类,(,1,)结构化数据,(,2,)非结构化数据,(,3,)半结构化数据,结构化数据:,即行数据,存储在数据库里,可以用二维表结构来逻辑表达实现的数据,非结构化数据:,包括所有格式的办公文档、文本、图片、,XML,、,HTML,、各类报表、图像和音频,/,视频信息等等。,半结构化数据:,是介于完全结构化数据和完全无结构的数据之间的数据,它一般是自描述的,数据的结构和内容混在一起。,1.,大数据可视化的概念,1.1,数据,表示数据的存储单位,计算机中的数据存储在存储器中,存储器存储数据的最小基本单位是,bit,,按照从小到的顺序表示数据的大小单位有,bit,、,Byte,、,KB,、,MB,、,GB,、,TB,、,PB,、,EB,、,ZB,、,YB,、,BB,、,NB,、,DB,。,红楼梦,是中国古典四大名著之一,该书含标点共有,87,万字(不含标点约,85,万字),计算机存储每个汉字需要占两个字节,则有,1,汉字,=2byte,等式成立。根据以上单位之间的换算关系得到,1GB,约等于,671,部红楼梦,,1TB,约等于,631,903,部,以此类推,,1PB,约等于,647,068,911,部。从这个描述过程中,可以感受到这些单位的大小程度。,1.,大数据可视化的概念,1.2,大数据,半个世纪以来,随着计算机技术全面融入社会生活,信息爆炸已经积累到了一个开始引发变革的程度。它不仅使世界充斥着比以往更多的信息,而且其增长速度也在加快。互联网(社交、搜索、电商)、移动互联网(微博)、物联网(传感器,智慧地球)、车联网、,GPS,、医学影像、安全监控、金融(银行、股市、保险)、电信(通话、短信)都在疯狂产生着数据。,大数据的起源,全球每秒钟发送,2.9,百万封电子邮件,一分钟读一篇的话,足够一个人昼夜不息的读,5.5,年,每天会有,2.88,万个小时的视频上传到,Youtube,,足够一个人昼夜不息的观看,3.3,年,推特上每天发布,5,千万条消息,假设,10,秒钟浏览一条信息,这些消息足够一个人昼夜不息的浏览,16,年,每天亚马逊上将产生,6.3,百万笔订单,每个月网民在,Facebook,上要花费,7,千亿分钟,被移动互联网使用者发送和接收的数据高达,1.3EB,Google,上每天需要处理,24PB,的数据,1.,大数据可视化的概念,1.2,大数据,大数据的起源,以下十个事实会让你相信,每个人都必须注意大数据,:,1.,全球数据的,90%,产生于过去,2,年内。,2.,以今天的数据生产速度,我们可以在,2,天内生产出,2003,年以前的所有数据。,3.,行业内获取并且存储的数据量每,1.2,年就会翻一番。,4.,到,2020,年,全球数据量将由现在的,3.2 ZBytes,变为,40 ZBytes,5.,仅,Google,一家搜索引擎,每秒就处理,4,万次搜索查询,一天之内更是超过,35,亿次。,1.,大数据可视化的概念,1.2,大数据,大数据的起源,6.,我们每分钟在,Facebook,上贡献,180,万次赞,上传,20,万张照片,我们每分钟还发送,2.04,亿封邮件。,7.,每分钟大约有,100,小时的视频被传上视频网站。要花费,15,年才能看完一天之内被传到,YouTube,上的全部视频。,8.AT&T,被认为是能够用单一数据库存储最多数据量的数据中心。,9.,在美国,这将会带来总计,600,万个新增工作岗位。,10.,全球每分钟会新增,570,个网站。,1.,大数据可视化的概念,1.2,大数据,大数据的起源,1.,大数据可视化的概念,1.2,大数据,数据量增加,TB,PB,ZB,EB,根据,IDC,监测,人类产生的数据量正在呈指数级增长,大约每两年翻一番,这个速度在,2020,年之前会继续保持下去。这意味着人类在最近两年产生的数据量相当于之前产生的全部数据量。,数据结构日趋复杂,大量新数据源的出现则导致了,非结构化,、,半结构化,数据爆发式的增长,这些由我们创造的信息背后产生的这些数据早已经远远超越了目前人力所能处理的范畴,大数据时代正在来临,大数据的起源,1.,大数据可视化的概念,1.2,大数据,20,世纪,90,年代,数据仓库之父的,Bill Inmon,就经常提及,Big Data,。,2011,年,5,月,,在,“云计算相遇大数据”,为主题的,EMC World 2011,会议中,,,EMC,抛出了,Big Data,概念,。,大数据的起源,1.,大数据可视化的概念,1.2,大数据,定义一:,大数据指的是那些大小超过标准数据库工具软件能够收集、存储、管理和分析的数据集。,摘自麦肯锡,定义二:,在信息技术中,“大数据”是指一些使用目前现有数据库管理工具或传统数据处理应用很难处理的大型而复杂的数据集。其挑战包括采集、管理、存储、搜索、共享、分析和可视化。,摘自,WIKI,定义三:,大数据,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。从数据的类别上看,,大数据,指的是无法使用传统流程或工具处理或分析的信息。它定义了那些超出正常处理范围和大小、迫使用户采用非传统处理方法的数据集。,摘自,Gartner,定义四:,大数据本质上是数据交叉、方法交叉、知识交叉、领域交叉、学科交叉,从而产生新的科学研究方法、新的管理决策方法、新的经济增长方式、新的社会发展方式等等。,摘自复旦大学朱扬勇教授,大数据的定义,1.,大数据可视化的概念,1.2,大数据,(,1,),按照数据分析的实时性,分为实时数据分析和离线数据分析两种。,实时数据分析,离线数据分析,大数据的分类,1.,大数据可视化的概念,1.2,大数据,大数据的分类,(,2,),按照大数据的数据量,分为内存级别、海量级别三种、商业智能(,BI,)级别,。,内存级别,内存级别指的是数据量不超过集群的内存最大值。,Facebook,缓存在内存的中的数据高达,320TB,,而目前的,PC,服务器,内存也可以超过百,GB,。,海量级别,海量级别指的是对于数据库和商业智能产品已经完全失效或者成本过高的数据量。,商业智能(,BI,)级别,BI,级别指的是那些对于内存来说太大的数据量,但一般可以将其放入传统的,BI,产品和专门设计的,BI,数据库之中进行分析。目前主流的,BI,产品都有支持,TB,级以上的数据分析方案。,1.,大数据可视化的概念,1.2,大数据,大数据的特征,最初的,4V,特征,到,5V,,直到现在的,6V,特征。,4V,特征是指大体量,(Volume),、多样性,(Variety),、快速化,(Velocity),、价值密度低(,Value,)。,5V,特征在,4V,特征基础上增加了真实性(,Veracity,),,5V,特征是,IBM,提出来的。,6V,特征在,5V,特征基础上增加了连接性(,Valence,)。,大体量(,Volume),在,2006,年,个人用户才刚刚迈进,TB,时代,全球一共新产生了约,180EB,的数据;在,2011,年,这个数字达到了,1.8ZB,。而根据知名市场研究机构,IDC,的预测,到,2020,年,整个世界的数据总量将会增长,44,倍,达到,35.2ZB(1ZB=10,亿,TB),。,一般情况下,大数据是以P8 EB ZB为单位进行计量的,1PB相当于50%的全美学术研究图书馆藏书的信息内容,5EB相当于至今全世界人类所讲过的话语,1ZB如同全世界海滩沙子数量总和,1YB相当于7000位人类体内的微细胞总和,多样性(,Variety),互联网、移动互联网、物联网、车联网等等各种数据来源大数据的数据结构更加多样化:,图像、视频、微博,评价、邮件,PDF,、,office,文档(,word,excel,ppt,),手机呼叫、短信,网页点击,搜索(,html,搜索行为),地图,gps,非结构化数据增长率就达,80%,,而传统的数据样式:多半是数据库表和,xml,。,快速化,(Velocity),每秒钟,人们发送,290,封电子邮件;,每分钟人们在,youtube,上传,20,小时的视频;,人们每月在总共在,facebook,上浏览,7000,亿分钟;,移动互联网网用户发送和上传的数据量达到,1.3exabytes,,相当于,10,的,18,次方;,每秒淘宝商城成交,178,笔订单,实时股票分析(过期无用),实时路况信息(过期无用),数据的快速产生和实时响应是一大特征,价值密度低(,Value,),挖掘大数据的价值类似沙里淘金比如用户评价分析,几百万的评价记录,真正有借鉴意义的就几句比如视频监控,每天产生,24,小时的视频数据,真正有价值的就几秒钟。,真实性(,Veracity,),数据的准确性和可信赖度,即数据的质量。,大数据中的内容是与真实世界中的发生息息相关的,研究大数据就是从庞大的网络数据中提取出能够解释和预测现实事件的过程。,Valence,(连接):数据的连接性。,1.,大数据可视化的概念,1.2,大数据,大数据的技术,大数据处理流程,大数据技术与工具,基础架构支持,云计算平台、云存储、虚拟化技术,网络技术、资源监控技术,数据采集,数据总线、,ETL,工具,数据存储,分布式文件系统,关系型数据库,NoSQL,技术,关系型数据库与非关系型数据库融合,内存数据库,数据计算,数据查询、统计与分析,数据预测与挖掘,图谱处理、,BI,商业智能,展现与交互,图形与报表、可视化工具、增强现实技术,1.,大数据可视化的概念,1.2,大数据,大数据的价值,大数据的价值体现在以下几个方面:,(,1,)对大量消费者提供产品或服务的企业可以利用大数据进行精准营销。,(,2,)做小而美模式的中小型企业可以利用大数据做服务转型。,(,3,)面临互联网压力之下必须转型的传统企业需要与时俱进充分利用大数据的价值。,白云下面数据跑,蓝蓝的天上白云飘,如果数据是财富,那么大数据就是宝藏,而云计算就是挖掘和利用宝藏的利器!没有强大的计算能力,数据宝藏终究是镜中花;没有大数据的积淀,云计算也只能是杀鸡用的宰牛刀!,大数据的价值所在,有人认为大数据是大麻烦,有人认为大数据是大挑战,有人认为大数据是大机遇。还有大知识、大科技、大利润、大发展,麻烦,个人隐私,信息安全,各种各样的海量数据,从来不删除数据,对并发读取、写入的要求极高,每次可能访问上,PB,的数据,真麻烦!,挑战,传统数据库、小型机、阵列不是为了大数据的业务需求设计的,非常吃力,成本高,根本无法支撑。是一个挑战!,机遇,在大数据的时代,数据就是直接的财富、就是核心的竞争力,很多行业,都要相继跨入一个数据兴则企业兴、数据强则企业强的竞争时代!,大数据的价值所在,大数据的价值所在,2010,年,12,月,总统行政办公室下属的科技技术顾问委员会,信息技术顾问委员会向奥巴马和国会提交了,规划数据未来,的专门报告,该报告把数据收集和使用的工作,提到了战略的高度。“如何收集、保存、维护、管理、分析、共享正在呈指数级增长的数据是我们必须面对的一个重要挑战。如何保证这些数据现在、将来的完整性和可用性,我们面临着很多的问题和挑战。如何使用这些数据,则是另外一个挑战。应对好这些挑战,将引导我们在科研、医疗、商业和国家安全方面开创新的成功。”,2012,年,3,月,29,日,奥巴马政府又进一步推进了其“大数据战略”。奥巴马的高级顾问、总统科学技术顾问委员会的主席霍尔德伦代表国防部、能源部等,6,个联邦政府部门宣布,将投入,2,亿多美元立即启动“大数据发展研究计划”,Big Data Research and Development Initiative,,以推动大数据的提取、存储、分析、共享和可视化。,美国政府推出了“大数据”战略,媲美与当年克林顿政府时代的信息高速公路计划。奥巴马希望借助大数据来将美国经济带出泥潭。从基础建设、到,IT,硬件、软件、网络,最后到数据。,1.,大数据可视化的概念,1.3,大数据可视化,狭义上的数据可视化指用统计图表方式呈现数据,用于传递信息。,广义上的数据可视化则是数据可视化、信息可视化以及科学可视化等多个领域的统称,涉及信息技术、自然科学、统计分析、图形学、交互、地理信息等多种学科。,其中,,科学可视化(,Scientific Visualization,)、信息可视化(,Information Visualization,)和可视分析学(,Visual Analytics,),三个学科方向通常被看成可视化的三个主要分支,整合在一起形成新学科“数据可视化”,这是可视化研究领域的新起点。,1.,大数据可视化的概念,1.3,大数据可视化,大数据可视化,地理信息,信息技术,自然科学,统计分析,交互,数据管理和知识表达,感知与,认知科学,图形学,表达与传播,科学可视化,是数据可视化中的一个应用领域,主要关注空间数据与三维现象的可视化,包含气象学、生物学、物理学、农学等,重点在于对客观事物的体、面及光源等的逼真渲染,科学可视化是计算机图形学的一个子集,是计算机科学的一个分支。,1.,大数据可视化的概念,信息可视化(,Information visualization,),是一个跨学科领域,旨在研究大规模非数值型信息资源的视觉呈现(如软件系统之中众多的文件或者一行行的程序代码)。,1.,大数据可视化的概念,可视化分析,是科学可视化与信息可视化领域发展的产物,侧重于借助交互式的用户界面而进行对数据的分析与推理。,1.,大数据可视化的概念,目录,CONTENTS,大数据可视化的概念,大数据可视化的作用与意义,1,2,3,大数据可视化的发展史,大数据可视化的应用领域,4,大数据可视化面临的挑战,5,大数据可视化技术的发展方向,6,2.,大数据可视化的发展史,1.,可视化思想的起源(,15,世纪,17,世纪),2.,数据可视化的孕育时期(,18,世纪),3.,可视化的快速发展时期(,19,世纪前半叶),4.,第一个黄金时期(,19,世纪后半叶),5.,低潮期(,20,世纪前期),6.,新的黄金时期(,20,世纪中后期至今),目录,CONTENTS,大数据可视化的概念,大数据可视化的作用与意义,1,2,3,大数据可视化的发展史,大数据可视化的应用领域,4,大数据可视化面临的挑战,5,大数据可视化技术的发展方向,6,3.,大数据可视化的作用与意义,(,1,),帮助人类更好地分析数据,,信息的质量很大程度上依赖于其表达方式,对数字罗列所组成的数据中所包含的意义进行分析,使分析结果可视化。,(,2,),数据可视化的本质就是视觉对话。,数据可视化将技术与艺术完美结合,借助图形化的手段,清晰有效地传达与沟通信息。,(,3,),一方面,数据赋予可视化以价值,;,另一方面,数据可视化增加数据的灵性,,两者相辅相成,帮助企业从信息中提取知识、从知识中收获价值。,3.,大数据可视化的作用与意义,1.,传递速度快,2.,数据显示的多维性,3.,更直观地展示信息,4.,大脑记忆能力的限制,很多研究已经表明,在进行理解和学习任务的时候,图文混合能够帮助读者更好的了解所要学习的内容,图像更容易理解、更有趣,也更容易让人们记住。,目录,CONTENTS,大数据可视化的概念,大数据可视化的作用与意义,1,2,3,大数据可视化的发展史,大数据可视化的应用领域,4,大数据可视化面临的挑战,5,大数据可视化技术的发展方向,6,4.,大数据可视化的应用领域,大数据可视化,似乎成了万灵药,,从总统竞选到奥斯卡颁奖,、,从,web,安全到灾难预测,。当,IT,经理成功部署一套,Hadoop,系统后,任何事看上去都与大数据有关(事实也是如此)。类似的事情在云计算的普及中也出现过,一开始大家认为所有的,IT,都可以搬到云端,而现实是我们依然需要虚拟化技术和基础设施。,其实,综合来看,未来几年大数据,在商业智能、土木工程和客户关系优化,三个领域的应用非常值得看好,,大多数大数据案例和预算将发生在这三个领域。,目录,CONTENTS,大数据可视化的概念,大数据可视化的作用与意义,1,2,3,大数据可视化的发展史,大数据可视化的应用领域,4,大数据可视化面临的挑战,5,大数据可视化技术的发展方向,6,5.,大数据可视化面临的挑战,1.,视觉噪声,在数据集中,大多数数据具有极强的相关性,无法将其分离作为独立的对象显示。,2.,信息丢失,减少可视化数据集的方法可行,但会导致信息的丢失。,3.,大型图像感知,数据可视化不单受限于设备的长度比及分辨率,也受限于现实世界的感受。,4.,高速图像变换,用户虽然能够观察数据,却不能对数据强度变化做出反应。,5.,高性能要求,静态可视化对性能要求不高,因为可视化速度较低,性能要求不高,然而动态可视化对性能要求会比较高。,目录,CONTENTS,大数据可视化的概念,大数据可视化的作用与意义,1,2,3,大数据可视化的发展史,大数据可视化的应用领域,4,大数据可视化面临的挑战,5,大数据可视化技术的发展方向,6,6.,大数据可视化技术的发展方向,1.,可视化技术与数据挖掘的关联,数据可视化可以帮助人们洞察出数据背后隐藏的潜在信息,提高了数据挖掘的效率,因此,可视化与数据挖掘紧密结合是可视化研究的一个重要发展方向。,2.,可视化技术与人机交互的关联,实现用户与数据的交互,方便用户控制数据,更好地实现人机交互这是我们一直追求的目标。因此,可视化与人机交互相结合是可视化研究的一个重要发展方向。,3.,可视化与大规模、高维度、非结构化数据的关联,目前,大数据时代大规模、高维度、非结构化数据层出不穷,要将这样的数据以可视化形式完美的展示出来,并非易事。因此,可视化与大规模、高维度、非结构化数据结合是可视化研究的一个重要发展方向。,PPT,模板下载:,PPT,素材下载:,PPT,图表下载:,PPT,教程:,Excel,教程:,PPT,课件下载:,PPT,论坛:,谢 谢,42,第,2,章 大数据可视化常用的方法,43,大数据可视化,目录,CONTENTS,图表可视化方法,可视化分析的常用算法,1,2,3,图可视化方法,欣赏可视化作品,4,可视化的原则,5,案例分析,6,1.,图表可视化方法,Office Excel 2016,版本及更高版本中提供了,17,大类的图表可视化方法,1.,图表可视化方法,1.,图表可视化方法,1.1,柱形图,柱形图(,bar chart,)又称为柱状图,是一种以长方形的长度为变量的统计报告图,用于显示一段时间内的数据变化或显示各项之间的比较情况。它的优势是利用柱子的高度,反映数据的差异,肉眼对高度差异很敏感;不足之处是只适用中小规模的数据集。柱形图有传统二维柱形图、三维柱形图等共七种。,1.,图表可视化方法,1.2,条,形图,排列在工作表的列或行中的数据可以绘制条形图。条形图显示各个项目之间的比较情况。条形图有二维条形图、三维条形图。二维条形图又分为簇状条形图、堆积条形图和百分比堆积条形图,三维条形图又分为三维簇状条形图、三维堆积条形图和三维百分比堆积条形图共六种。,1.,图表可视化方法,1.3,折线,图,折线图适用于二维大数据集,尤其是显示随时间(根据常用比例设置)而变化的连续数据,因此非常适用于显示在相等时间间隔下数据的趋势。在折线图中,类别数据沿水平轴均匀分布,所有值数据沿垂直轴均匀分布。折线图分为折线图、带数据标记的折线图、堆积折线图、带数据标记的堆积折线图、百分比堆积折线图、带数据标记的百分比堆积折线图、三维折线图七种。,1.,图表可视化方法,1.4,饼,图,饼图适用于显示一个数据系列中各项的大小与各项总和的比例。饼图中的数据点显示为整个饼图的百分比。饼图分为饼图和三维饼图、复合饼图、复合条饼图、圆环图五种。,如果遇到以下情况,可考虑使用饼图:,1.,只有一个数据系列。,2.,数据中的值没有负数。,3,数据中的值几乎没有零值。,4.,类别不超过,7,个,并且这些类别共同构成了整个饼图。,1.,图表可视化方法,1.5,散点图,散点图适用于三维数据集,但其中只有两维变量需要比较,判断两变量之间是否存在某种关联或总结坐标点的分布模式。散点图通常用于比较跨类别的聚合数据。默认情况下,散点图以圆圈显示数据点。如果在散点图中有多个序列,考虑将每个点的标记形状更改为方形、三角形、菱形或其他形状。散点图有散点图、带平滑线和数据标记的散点图、带平滑线的散点图、带有直线和数据标记的散点图和带直线的散点图五种。,1.,图表可视化方法,1.6,气泡图,气泡图,(bubble chart),是可用于展示三个变量之间的关系。它与散点图类似,绘制时将一个变量放在横轴,另一个变量放在纵轴,而第三个变量则用气泡的大小来表示。排列在工作表的列中的数据(第一列中列出,x,值,在相邻列中列出相应的,y,值和气泡大小的值)可以绘制在气泡图中。气泡图有气泡图和三维气泡图两种,1.,图表可视化方法,1.7,雷达,图,雷达图是以从同一点开始的轴上表示的三个或更多个定量变量的二维图表的形式显示多变量数据的图形方法。轴的相对位置和角度通常是无信息的。雷达图也称为网络图、蜘蛛图、星图、不规则多边形、极坐标图或,Kiviat,图。它相当于平行坐标图,轴径向排列。雷达图有雷达图、带数据标记的雷达图和填充雷达图三种。,1.,图表可视化方法,1.8,瀑布图,瀑布图显示加上或减去值时的财务数据累计汇总。在理解一系列正值和负值对初始值的影响时,这种图表非常有用。列采用彩色编码,可以快速将正数与负数区分开来。,1.,图表可视化方法,1.9,树状图,树状图提供数据的分层视图,方便比较分类的不同级别。树状图按颜色和接近度显示类别,并可以轻松显示大量数据,而其他图表类型难以做到。当层次结构内存在空(空白)单元格时可以绘制树状图,树状图非常适合比较层次结构内的比例。,1.,图表可视化方法,1.10,组合图,以列和行的形式排列的数据可以绘制为组合图。组合图将两种或更多图表类型组合在一起,以便让数据更容易理解,特别是数据变化范围较大时。由于采用了次坐标轴,所以这种图表更容易看懂。组合图的类型有簇状柱形图,-,折线图、簇状柱形图,-,次坐标轴上的折线图、堆积面积图,-,簇状柱形图、自定义组合四种,1.,图表可视化方法,1.11,选择不同图表的基本原则,需要避开的陷阱,邪恶的饼图,甜甜圈图,永远别用,3D,图形,双,Y,轴,目录,CONTENTS,图表可视化方法,可视化分析的常用算法,1,2,3,图可视化方法,欣赏可视化作品,4,可视化的原则,5,案例分析,6,2.,图可视化方法,2.1,图的类型,图可视化最重要的作用之一,便是能够表达关系。这些关系组成了已经定义的世界或系统。图能够以一种非常容易理解的方式来描述和表达世界。,1.,关系,2.,图可视化方法,2.1,图的类型,对于分层数据中获取信息,图也是一个很好的选择。分层图常被称树。树有一个根父节点,其链接分支到第二级节点,第二级节点还可能再次分支,以此类推,直到到达没有子节点的叶子节点,根节点的每个后代节点都只有一个父节点。,2.,分层,2.,图可视化方法,2.2,图的可视化,图论(,Graph Theory,)是数学的一个分支。它以图为研究对象。图论中的图是由若干给定的点及连接两点的线所构成的图形,这种图形通常用来描述某些事物之间的某种特定关系,用点代表事物,用连接两点的线表示相应两个事物间具有这种关系。,2.,图可视化方法,2.3,思维导图,思维导图(,The Mind Map,)是表达发散性思维的有效图形思维工具,它简单却又很有效,是一种实用性的思维工具。思维导图的创始人是英国的东尼,博赞,(Tony Buzan),。,目录,CONTENTS,图表可视化方法,可视化分析的常用算法,1,2,3,图可视化方法,欣赏可视化作品,4,可视化的原则,5,案例分析,6,3.,可视化分析的常用方法,3.1,主成分分析,主成分分析(,Principal Component Analysis,,,PCA,),是一种统计方法。,通过正交变换将一组可能存在相关性的变量转换为一组线性不相关的变量,转换后的这组变量叫主成分。,主成分分析首先是由,K.,皮尔森(,Karl Pearson,),对非随机变量引入的,尔后,H.,霍特林将此方法推广到随机向量的情形。信息的大小通常用离差平方和或方差来衡量。,主成分分析作为基础的数学分析方法,其实际应用十分广泛,是一种常用的多变量分析方法。,3.,可视化分析的常用方法,3.2,因子分析,因子分析(,Factor Analysis,)可以看作是主成分分析的一个扩充,也是一种降维、简化数据的技术。,最早由,英国心理学家,C.E.,斯皮尔曼,提出。,因子分析可在许多变量中找出隐藏的具有代表性的因子,通过研究众多变量之间的内部依赖关系,使用少数几个“抽象”的变量来表示其基本的数据结构。,这几个抽象的变量被称作“因子”,能反映原来众多变量的主要信息。原始的变量是可观测的显在变量,而因子一般是不可观测的潜在变量。,例如:商店的环境、商店的服务和商品的价格作为因子,这三个方面除了商品的价格外,商店的环境和服务质量都是客观存在的、抽象的影响因素,都不便于直接测量,只能通过其它具体指标进行间接反映。,因子分析的方法有两类。一类是探索性因子分析法,另一类是验证性因子分析。,3.,可视化分析的常用方法,3.3,聚类分析,“物以类聚,人以群分”,科学研究在揭示对象特点及其相互作用的过程中,不惜花费时间和精力进行对象分类,以揭示其中相同和不相同的特征。,聚类分析指将物理或抽象对象的集合分组为由类似的对象组成的多个类的分析过程。,它是一种重要的人类行为,是一种探索性的分析,在分类的过程中,人们不必事先给出一个分类的标准,聚类分析能够从样本数据出发,自动进行分类。聚类分析所使用方法的不同,常常会得到不同的结论。不同研究者对于同一组数据进行聚类分析,所得到的聚类数未必一致。,聚类分析的目标就是,在相似的基础上收集数据来分类,。聚类源于很多领域,包括数学、计算机科学、统计学、生物学和经济学。在不同的应用领域,很多聚类技术都得到了发展,这些技术方法被用作描述数据,衡量不同数据源间的相似性,以及把数据源分类到不同的簇中。,3.,可视化分析的常用方法,3.4,层次分析法,“美国运筹学家、匹兹堡大学教授,T.L.Saaty,等人在,20,世纪七十年代提出了一种能有效处理这类问题的实用方法,-,层次分析法。,层次分析法(,Analytic Hierarchy Process,AHP),是一种定性和定量相结合、系统化、层次化的分析方法。由于它在处理复杂的决策问题上的实用性和有效性,很快在世界范围得到重视。它的应用已遍及经济计划和管理、能源政策和分配、行为科学、军事指挥、运输、农业、教育、人才、医疗和环境等领域。,层次分析法的具有系统性、实用性和简洁性等优点,也有一定的局限性。,目录,CONTENTS,图表可视化方法,可视化分析的常用算法,1,2,3,图可视化方法,欣赏可视化作品,4,可视化的原则,5,案例分析,6,4.,优秀的数据可视化作品欣赏,4.,优秀的数据可视化作品欣赏,4.,优秀的数据可视化作品欣赏,4.,优秀的数据可视化作品欣赏,4.,优秀的数据可视化作品欣赏,4.,优秀的数据可视化作品欣赏,4.,优秀的数据可视化作品欣赏,2.,常见的可视化作品链接,D3,制作的,example(,注意迭代版本,):i-remember.fr/en,标签云制作,tagul:PPT,素材下载:,PPT,图表下载:,PPT,教程:,Excel,教程:,PPT,课件下载:,PPT,论坛:,谢 谢,102,第,3,章 大数据可视化的核心技术,103,大数据可视化,数据采集,数据预处理,数据存储,数据处理,数据分析,数据挖掘,目录,CONTENTS,大数据采集,数据存储,1,2,3,数据预处理,数据处理,4,数据分析,5,1.,大数据采集,采集是大数据处理流程的第一步。,数据是大数据处理的基础,数据的完整性和质量直接影响着大数据处理的结果。,1.1,大数据采集的定义,大数据采集是指,从传感器和智能设备、企业在线系统、企业离线系统、社交网络和互联网平台等获取数据的过程,。数据包括,RFID,射频数据、传感器数据、用户行为数据、社交网络交互数据及移动互联网数据等各种类型的结构化、半结构化及非结构化的海量数据。,数据的采集是指,利用多个数据库或存储系统来接收发自客户端(,Web,、,App,或者传感器形式等)的数据。,比如,电商会使用传统的关系型数据库,MySQL,和,Oracle,等来存储每一笔事务数据,在大数据时代,,Redis,和,MongoDB,和,HBase,等,NoSQL,数据库也常用于数据的采集。,在大数据的采集过程中,,其主要特点和挑战是并发数高,,因为同时有可能会有成千上万的用户来进行访问和操作,比如火车票售票网站和淘宝,它们并发的访问量在峰值时达到上百万,所以需要在采集端部署大量数据库才能支撑。,1.,大数据采集,1.2,数据采集的方法,根据数据源的不同,大数据采集方法也不相同。但是为了能够满足大数据采集的需要,大数据采集方法都使用了大数据的处理模式:,MapReduce,分布式并行处理模式或者基于内存的流式处理方式。,大数据采集方法分为:,(,1,)数据库采集,(,2,)系统日志采集,(,3,)网络数据采集,(,4,)感知设备数据采集,1.,大数据采集,1.2,数据采集的方法,根据数据源的不同,大数据采集方法也不相同。但是为了能够满足大数据采集的需要,大数据采集方法都使用了大数据的处理模式:,MapReduce,分布式并行处理模式或者基于内存的流式处理方式。,(,1,)数据库采集,传统企业会使用传统的关系型数据库,MySQL,和,Oracle,等来存储数据。随着大数据时代的到来,,HBase,、,Redis,和,MongoDB,这样的,NoSQL,数据库,也常用于数据的采集。通过在采集端部署大量数据库,并在这些数据库之间进行负载均衡和分片来完成大数据采集工作。,1.,大数据采集,1.2,数据采集的方法,根据数据源的不同,大数据采集方法也不相同。但是为了能够满足大数据采集的需要,大数据采集方法都使用了大数据的处理模式:,MapReduce,分布式并行处理模式或者基于内存的流式处理方式。,(,2,)系统日志采集,系统日志采集主要是收集公司业务平台日常产生的大量日志数据,供进行离线和在线的大数据分析系统使用。,高可用性、高可靠性、可扩展性是,日志收集系统所具有的基本特征。,系统日志采集工具均采用分布式架构,能够满足每秒数百,MB,的日志数据采集和传输需求。,目前使用最广泛的用于系统日志采集的海量数据采集工具有,Hadoop,的,Chukwa,,,Apache Flume,,,Facebook,的,Scribe,和,LinkedIn,的,Kafka,等。,1.,大数据采集,1.2,数据采集的方法,根据数据源的不同,大数据采集方法也不相同。但是为了能够满足大数据采集的需要,大数据采集方法都使用了大数据的处理模式:,MapReduce,分布式并行处理模式或者基于内存的流式处理方式。,(,3,)网络数据采集,网络数据采集是指通过网络爬虫或网站公开,API,等方式从网站上获取数据信息的过程。,网络爬虫会从一个或若干初始网页的,URL,开始,获得各个网页上的内容,并且在抓取网页的过程中,不断从当前页面上抽取新的,URL,放入队列,直到满足设置的停止条件为止。这样可将非结构化数据、半结构化数据从网页中提取出来,存储在本地的存储系统中。,网络爬虫(,Web Crawler,)工具基本可以分,3,类,:分布式网络爬虫工具如,Nutch,;,Java,网络爬虫工具如,Crawler4j,、,WebMagic,、,WebCollector,;非,Java,网络爬虫工具如,Scrapy,(基于,Python,语言开发)。,1.,大数据采集,1.2,数据采集的方法,根据数据源的不同,大数据采集方法也不相同。但是为了能够满足大数据采集的需要,大数据采集方法都使用了大数据的处理模式:,MapReduce,分布式并行处理模式或者基于内存的流式处理方式。,(,4,)感知设备数据采集,感知设备数据采集是通过传感器、摄像头和其他智能终端自动采集信号、图片或录像来获取数据。大数据智能感知系统需要实现对结构化、半结构化、非结构化的海量数据的智能化识别、定位、跟踪、接入、传输、信号转换、监控、初步处理和管理等。,主要关键技术,包括针对大数据源的智能识别、感知、适配、传输、接入等。,1.,大数据采集,1.3,大数据采集的基本流程,(,1,)目标用户的确定,根据信息用户类型的不同,将信息需求分为个人信息需求和组织信息需求。,(,2,)确定采集内容,通过与信息资源采集目标和需求具有一定相关性的信息的特征来确定。,(,3,)确定采集的范围,采集的范围分为采集的时间范围和采集的空间范围。,采集的时间范围注重信息的时效性,选择适当的时间范围。根据信息的分布特性,选择适当的空间范围,提高信息的相关度和适应度。,(,4,)确定采集量,采集的信息数量决定了采集工作的人力、时间和费用。,(,5,)其他因素,信息环境、信息的可获取性等。,1.,大数据采集,1.4.,主流的大数据采集平台,(,1,),Apache Flume,(官网:,https:/flume.apache.org/,),Flume,是,Apache,旗下的一款开源、高可靠、高扩展、容易管理、支持客户扩展的数据采集系统。,Flume,使用,JRuby,来构建,依赖,Java,运行环境。,(,2,),Fluentd,(官网:,docs.fluentd.org/articles/quickstart,),Fluentd,是一个开源的数据收集框架。,Fluentd,使用,C/Ruby,开发,使用,JSON,文件来统一日志数据。它的可插拔架构支持各种不同种类和格式的数据源和数据输出。最后,它也同时提供了高可靠性和很好的扩展性。,(,3,),Logstash,(,Logstash,Kibana,)中的收集平吧。,Logstash,用,JRuby,开发,所有运行时依赖,JVM,。,1.,大数据采集,1.4.,主流的大数据采集平台,(,4,),Chukwa,(官网:,https:/chukwa.apache.org/,),Apache Chukwa,也是,Apache,旗下一个开源的数据收集平台,,Chukwa,基于,Hadoop,的,HDFS,和,Map Re
展开阅读全文