资源描述
提要,大数据概论,导学,一、内容与,要求,1,.,了解大数据的主要来源,掌握大数据的特点和大数据的处理流程,。,2.,了解四层堆栈式技术架构,。,3.,了解大数据的整体,技术,。,4.,了解,大,数据分析,四,种,典型,工具,。,5.,了解,大数据未来发展,趋势,。,二、重点、难点,本章重点,是了解大数据的特点、特征和大数据未来发展趋势,。,本章,的难点是了解大数据技术,架构和整体技术,。,大,数据(,Big Data,),指的是所涉及的资料量规模巨大到无法通过目前主流软件工具,在合理时间内达到撷取、管理、处理、并整理成为帮助企业经营决策更积极目的的资讯。,2014,年,每天会有,2.3ZB,量,的数据产生,(IBM,2015),。,1ZB=1024EB,1EB=1024PB,1PB=1024TB,1TB=1024GB,这是一个什么概念?,1.1,大数据技术简介,1.1.1 IT,产业的发展,简史,IT,产业的几个发展阶段,如下:,1,、硬件时代(,80,年代,),代表,公司:,IBM,,,HP,,,Apple,联想,东芝,,索尼,;,代表产品:,服务器,台式电脑,笔记本电脑,2,、软件时代(,90,年代),代表,公司:,微软,,Oracle,,,Adobe,,用友;,代表产品,:,Windows,,,Oracle,,,Office,,财务软件,3,、互联网时代(,2000,年代),代表,公司:,yahoo!,亚马逊,,google,,,facebook,twitter,新浪,阿里,腾讯,百度,;代表,产品:,三,大门户网站,百度搜索,,QQ,,人人网,淘宝,天猫,京东,,4,、移动互联时代(,2010,年代),代表,公司:,腾讯,字节跳动,美图科技;,代表产品:,微信,今日头条,口袋购物,嘀嘀打车,美图秀秀,墨迹天气,高德地图,5,、物联网时代(现在),物,联网时代,智能硬件(智能手环,,google,眼镜等)只是物联网的一部分,电视,冰箱,洗衣机,汽车,实时路况,空的车位,都能连,上网,可以实时查看,远程控制,互联联将真正实现连接人与信息,连接人与人(社交),连接人与商品(电商),连接人与服务(,O2O,),连接物与物(物联网),互联网将连接一切!,1.1.2,大数据的主要来源,信息管理系统,企业内部使用的信息系统,如办公自动化、业务管理系统等。主要是通过用户输入和系统的二次加工的方式生成的数据,多为结构化数据,。,网络信息系统,如,电子商务系统、社交网络、社会媒体等。这类系统多为半结构化或无结构化数据,与前者的区别在于,内部使用不接入外部公共网络,。,物联网系统,通过,传感器获取外界的物理、化学、生物等数据,信息,科学实验系统,主要,用于学术科学研究,其环境是预先设定的,数据既可以是由真实实验产生,也可以通过模拟方式获取仿真的,。,1.1.3,数据生成的三种主要,方式,从,数据库技术诞生以来,产生大数据的方式主要经过了三个,发展阶段:,被动式生成,数据,采用,数据库技术阶段数据的产生是被动的,数据时随着业务系统的运行产生,的。,主动式生成数据,Web2.0,、移动互联网的发展使人们可以随时随地通过移动终端生成数据,人们开始主动地生成数据,。,感知式生成数据,感知,技术的发展促进了数据生成方式发生了根本性的变化,如遍布城市各个角落的摄像头等数据采集设备源源不断地自动采集、生成数据。,1.1.4,大数据的,特点,传 统 数 据,大 数 据,数据产生方式,被动采集数据,主动生成数据,数据采集密度,采样密度较低,采样数据有限,利用大数据平台,可对需要分析事件的数据进行密度采样,精确获取事件全局数据,数据源,数据源获取较为孤立,不同数据之间添加的数据整合难度较大,利用大数据技术,通过分布式技术、分布式文件系统、分布式数据库等技术对多个数据源获取的数据进行整合处理,数据处理方式,大多采用离线处理方式,对生成的数据集中分析处理,不对实时产生的数据进行分析,较大的数据源、响应时间要求低的应用可以采取批处理方式集中计算;响应时间要求高的实时数据处理采用流处理的方式进行实时计算,并,通过对历史数据的分析进行预测分析,1.1.5,大数据的处理流程,大数据处理的基本流程,1.1.6,大数据的,数据格式,结构化信息:,这种信息可以在关系数据库中找到,多年来一直主导着,IT,应用,是关键任务,OLTP(,联机事务处理,),系统业务所依赖的信息。另外,这种信息还可对结构数据库信息进行排序和查询。,半,结构化信息:,包括电子邮件、文字处理文件及大量保存和发布在网络上的信息,。,非结构化信息:,该信息在本质形式上可认为主要是位映射数据。,1.1.7,大数据的,特征,大数据呈现出“,4V+1O,”,的特征,具体如下,:,数据量大(,Volume,),多样化(,Variety,),数据价值密度化(,Value,),速度快,时效高(,Velocity,),数据是在线的(,On-Line,),1.1.8,大数据的应用,领域,RFID,传感器,军事侦察,社会网络,、数据,天文学,摄影档案馆视频档案,医疗记录,互联网搜索索引,网络日志,生物、基因组学,大规模的电子商务,1.2,大,数据的技术,架构,大数据的四层堆栈式技术架构,1.3,大数据的整体,技术,一般,包括:数据采集、数据存取、基础架构、数据处理、统计分析、数据挖掘、模型预测和结果呈现等,。,1.4,大数据分析,的四种,典型工具简介,1,Hadoop,Hadoop,是一个能够对大量数据进行分布式处理的软件框架,是一个能够让用户轻松架构和使用的分布式计算平台,。,2,Spark,Spark,是一个基于内存计算的开源集群计算系统,目的是更快速的进行数据分析。,3,Storm,Storm,是一种开源软件,一个分布式、容错的实时计算系统,。,4,Apache,Drill,为了帮助企业用户寻找更为有效、加快,Hadoop,数据查询的方法,,Apache,软件基金会发起了一项名为,Drill,的开源项目。,Apache Drill,实现了,Googles,Dremel,。,1.5,大数据未来发展趋势,1.5.1,数据,资源化,资源化,是指大数据成为企业和社会关注的重要战略资源,并已成为大家争抢的新焦点,数据将逐渐成为最有价值的资产。,1.5.2,数据科学和数据联盟的,成立,1,催生新的学科和,行业,数据,科学将成为一门专门的学科,被越来越多的人所认知。越来越多的高校开设了与大数据相关的学科课程,为市场和企业培养人才,。,2,数据共享,数据,可能成为一种共享的趋势。,1.5.3,大数据隐私和安全,问题,1,大数据引发个人隐私、企业和国家安全,问题,大数据时代将引发个人隐私安全问题,。,大数据时代,企业将面临信息安全的挑战,。,大数据时代,大数据安全应该上升为国家安全,。,2,正确合理利用大数据,促进大数据产业的健康发展,大数据时代,必须对数据安全和隐私进行有效的保护,1.5.4,开源软件成为推动大数据发展的,动力,大,数据获得动力的关键在于开放源代码,帮助分解和分析数据。开源软件的盛行不会抑制商业软件的发展。相反,开源软件将会给基础架构硬件、应用程序开发工具、应用服务等各个方面相关领域带来更多的机会。,1.5.5,大数据在多方位改善我们的,生活,大,数据作为一种重要的战略资产,已经不同程度地渗透到每个行业领域和部门。现在,通过大数据的力量,用户希望掌握真正的便捷信息,从而让生活更有趣。,本章小结,近年来,大数据应用带来了令人瞩目的成绩。作为新的重要资源,世界各国都在加快大数据的战略布局,制定战略规划。,总而言之,,大数据技术的发展必将解开宇宙起源的奥秘和对人类社会未来发展的趋势有推动作用。,大数据技术与应用,计算机中心,第,2,章大数据采集及预处理,导学,一、内容与,要求,1,.,理解大数据采集的基本概念,掌握大数据采集的数据来源,了解大数据采集的技术方法。,2.,了解大数据预处理的方法和了解大数据采集及预处理的常用工具。,二、重点、难点,重点是大数据采集的概念,大数据采集的数据来源和技术方法。难点是大数据预处理的方法。,2.1,数据采集简介,2.1.1,数据采集,大,数据的数据采集是在确定用户目标的基础上,针对该范围内所有结构化、半结构化和非结构化的数据的采集。,传统的数据采集,大数据的数据采集,数据来源,来源单一,数据量相对大数据较小,来源,广泛,数据量巨大,数据类型,结构单一,数据类型,丰富,,,包括,结构化、,半结构化,、非结构化,数据处理,关系型数据库和并行数据仓库,分布式数据库,2.1.2,数据采集,的数据,来源,按照,数据来源划分,,大数据的三大主要来源,为:,商业,数据、互联网数据与物联网数据,。,1,商业,数据,商业,数据是指来自于企业,ERP,系统、各种,POS,终端及网上支付系统等业务系统的数据,是现在最主要的数据来源渠道。,2,互联网,数据,互联网,数据是指网络空间交互过程中产生的大量数据,包括通信记录及,QQ,、微信、微博等社交媒体产生的数据,其数据复杂且难以被利用,。,互联网数据,具有的特点:,大,量化,多样化,快速化,3,物联网数据,物联网是指在计算机互联网的基础上,利用射频识别、传感器、红外感应器、无线数据通信等技术,构造一个覆盖世界上万事万物的“,The Internet of Things,”,也就是“实现物物相连的互联网络”,。,其内涵包含:,物联网的核心和基础仍是互联网,是在互联网基础之上延伸和扩展的一种网络。,用户端延伸和扩展到了任何物品与物品之间,进行信息交换和,通信,。,物联网数据的特点主要包括,:,物联网中的数据量更,大,物联网中的数据传输速率更,高,物联网中的数据更加,多样化,物联网对数据真实性的要求更高,2.1.3,数据采集,的技术,方法,1,系统日志采集方法,很多,互联网企业都有自己的海量数据采集工具,多用于系统日志采集,,如:,Hadoop,的,Chukwa,Cloudera,的,Flume,Facebook,的,Scribe,2,对非结构化数据的,采集,非,结构化数据的采集就是针对所有非结构化的数据的采集,包括,企业内部数据的采集,和,网络数据采集,等,。,企业内部数据的采集是对企业内部各种文档、视频、音频、邮件、图片等数据格式之间互不兼容的,数据采集。,网络数据采集是指通过网络爬虫或网站公开,API,等方式从网站上获取互联网中相关网页内容的过程,并从中抽取出用户所需要的属性内容,。,网络爬虫是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本。是一个自动提取网页的程序,它为搜索引擎从万维网上下载网页,是搜索引擎的重要组成。,3,其他数据采集方法,对于,企业生产经营数据或学科研究数据等保密性要求较高的数据,可以通过与企业或研究机构合作,使用特定系统接口等相关方式采集数据。,2.2,大数据的预处理,大数据预处理的方法主要包括,:,数据,清洗、数据集成、数据变换和数据规约。,大数据处理流程,1,数据,清洗,数据,清洗是在汇聚多个维度、多个来源、多种结构的数据之后,对数据进行抽取、转换和集成加载,。,目的在于删除重复信息、纠正存在的错误,并提供数据一致性,。,大数据清洗工具,DataWrangler,2,数据,集成,数据,集成是把不同来源,、,不同,格式、,不同,特点,性质的数据在逻辑上或物理上有机地集中,从而为企业提供全面的数据共享,。,目前通常采用联邦式、基于中间件模型和数据仓库等方法来构造集成的,系统。,大,数据,集成:,狭义,上讲是指如何合并规整数据,;,广义,上讲数据的存储、移动、处理等与数据管理有关的活动都称为数据集成,。,大,数据集成一般需要将处理过程分布到源数据上进行并行处理,并仅对结果进行集成,。,3,数据,变换,数据,变换是将数据转换成适合挖掘的形式。数据变换是采用线性或非线性的数学变换方法将多维数据压缩成较少维数的数据,消除它们在时间、空间、属性及精度等特征表现方面的,差异,(如统计学中的数据,标准化),。,4,数据,规约,数据,规约是从数据库或数据仓库中选取并建立使用者感兴趣的数据集合,然后从数据集合中滤掉一些无关、偏差或重复的,数据,,在,尽可能保持数据原貌的前提下,最大限度地精简数据量。,数据归约主要有两个途径:属性选择和数据采样,分别针对原始数据集中的属性和记录。,2.3,数据采集及预处理的主要工具,1,Flume,Flume,是,Cloudera,提供的一个高可用的、高可靠的、分布式的海量日志采集、聚合和传输的系统,。,官网:,flume.apache.org/,2,Logstash,Logstash,是一个应用程序日志、事件的传输、处理、管理和搜索的平台。可以用它来统一对应用程序日志进行收集管理,提供,Web,接口用于查询和统计,。,3,Kibana,Kibana,是一个为,Logstash,和,ElasticSearch,提供的日志分析的,Web,接口。可使用它对日志进行高效的搜索、可视化、分析等各种操作。,主页:,kibana.org/,4,Ceilometer,Ceilometer,主要负责监控数据的采集,是,OpenStack,中的一个子项目,它像一个漏斗一样,能把,OpenStack,内部发生的几乎所有的事件都收集起来,然后为计费和监控以及其它服务提供数据支撑,。,官方网站:,docs.openstack.org/,(,1,)进入网络矿工官方网站,下载免费版,本例下载的是,sominerv5.33,(通常免费版有试用期限,一般为,30,天)。网络矿工的运行需要,.Net,Framework 2.0,环境,建议使用,Firefox,浏览器。,(,2,)下载的压缩文件内包含多个可执行程序,其中,SoukeyNetget.exe,为网络矿工采集软件,运行此文件即可打开网络矿工,操作界面如图。,(,3,)点击“新建采集任务分类”,在弹出的“新建任务类别”中输入类别名称,并保存存储路径,如,图,。,(,4,)在“新建任务管理”中,右键单击,“新建采集任务”。,在弹出的“新建采集任务”中输入任务名称,如,图。,(,5,)在“新建采集任务”中,点击“增加采集网址”,在弹出的操作页面中输入采集网址,如,在“导航页规则配置”中,,,设置导航规则:,,,,如图,。单击确定按钮。,(,7,),配置采集数据的规则:因为要采集新闻的正文、标题、发布时间,可以用三种方式来完成:智能采集、可视化采集和规则配置。以智能采集为例,回到“新建采集任务”中,点击“采集数据”,然后点击“配置助手”,,,如图,。,(,8,),在,弹出的“采集规则自动化配置”中,在地址栏输入采集,地址,,,点击“转到”按钮,可以看到百度新闻的页面。再,点击,“生成文章采集规则”,可以看到系统已经将文章的智能规则输入到系统中,点击“测试”可以检查采集结果是否正确,,如图,。点击“,确定退出,”,,,这样就完成了配置。,(,9,)点击,“,保存,”,和“确定”按钮,。,在返回的“新建采集任务”中,点击“采集任务测试”,,,输入示例网址:,,,,点击,“启动测试”,,,如图,。,(,10,)任务设置完成后,返回最初操作界面,如,图。,选中任务右键单击“启动”,可看到下面屏幕滚动,停止后则采集完成。,(,11,)采集任务完成后,任务将以,.,smt,文件形式保存在安装路径的,tasks,文件夹内。右键单击采集任务的名称,在弹出的快捷菜单内选择数据导出的格式,包括文本、,Excel,和,Word,等。,如选择导出,Excel,,导出结果如,图。,本章小结,本章主要介绍了大数据的采集、大数据采集的数据来源、大数据采集的技术方法和大数据的预处理,以及大数据采集与预处理的一些工具和简单的采集任务执行范例。大数据采集后为了减少及避免后续的数据分析和数据挖掘中会出现的问题,有必要对数据进行预处理。数据的预处理主要是完成对于已经采集到的数据进行适当的处理、清洗、去噪及进一步的集成存储。,大数据技术与应用,计算机中心,第,3,章,大数据分析概论,导学,一、学习目标,1,、,理解,大数据分析;掌握大数据分析的基本方法及流程。,2.,熟悉大数据分析的技术,和作用。,3.,掌握四种类型大数据的特点及了解典型分析处理系统,。,4.,了解网络与医学大数据的分析,。,二、重点、难点,1,、大数据的基本分析方法,预测性分析,、,可视化分析,、,大数据挖掘算法,、,语义引擎,、,数据质量和数据管理,2,、大数据的分析流程,提出问题,、,大数据理解,、,大数据的采集,、,大数据的预处理,、,大数据分析,、,结果的解析,3,、大数据分析的主要技术,深度学习、知识计算及可视化等,3.1,大数据分析简介,3.1.1,大数据分析,大数据分析是指对规模巨大的数据进行分析。通过多个学科技术的融合,实现数据的采集、管理和分析,从而发现新的知识和规律。,提 出,问题,数据,采集,数据,分析,可视化,效果,评估,大数据分析流程,数据质量和数据管理,3.1,大数据分析简介,3.1.2,大数据分析的基本方法,预测性分析,可视化分析,大数据挖掘算法,语义引擎,从大数据中挖掘出有价值的知识和规则,通过科学建模的手段呈现出结果,然后可以将新的数据带入模型,从而预测未来的情况。,常用的数据挖掘方法有:分类、预测、关联规则、聚类、决策树、描述和可视化、复杂数据类型挖掘(,Text,、,Web,、图形图像、视频、音频)等。,能够直观的呈现大数据特点,同时能够非常容易被用户所接受。,语义引擎通过对网络中的资源对象进行语义上的标注,以及对用户的查询表达进行语义处理,使得自然语言具备语义上的逻辑关系,能够在网络环境下进行广泛有效的语义推理,从而更加准确、全面的实现用户的检索。,为了满足信息利用的需要,对信息系统的各个信息采集点进行规范,包括建立模式化的操作规程、原始信息的校验、错误信息的反馈、矫正等一系列的过程。,3.1,大数据分析简介,分析结果的解析,数据,数据分析,数据预处理,数据采集,数据理解,提出问题,3.1.3,大数据处理流程,3.2,大数据分析的主要技术,3.2.1,深度学习,深度学习是一种能够模拟出人脑的神经结构的机器学习方式,从而能够让计算机具有人一样的智慧。,利用层次化的架构学习出对象在不同层次上的表达,这种层次化的表达可以帮助解决更加复杂抽象的问题。,德国小镇一瞥,梵高的星夜风格的小镇,3.2,大数据分析的主要技术,3.2.2,知识计算,知识计算是从大数据中首先获得有价值的知识,并对其进行进一步深入的计算和分析的过程。,也就是要对数据进行高端的分析,需要从大数据中先抽取出有价值的知识,并把它构建成可支持查询、分析与计算的知识库。,心房颤动知识图谱,心肌炎知识图谱,3.3,大数据分析系统简介,3.3.1,批量数据及处理系统,批量数据,通常是数据体量巨大,如数据从,TB,级别跃升,到,PB,级别,且是以静态的形式存储,。,Hadoop,是典型的大数据批量处理架构,由,HDFS,负责,静态数据的存储,通过,MapReduce,将计算逻辑、机器,学习和数据挖掘算法实现。,3.3,大数据分析系统简介,3.3.2,流式数据及处理系统,流式数据,是一个无穷的数据序列,序列中的每一个,元素来源不同,格式复杂,序列往往包含时序特性。,流式数据处理有,Twitter,的,Storm,,,Facebook,的,Scribe,,,Linkedin,的,Samza,等。,3.3,大数据分析系统简介,3.3.3,交互式数据及处理系统,交互式数据,是,操作人员与计算机以人机对话的方式产生,的数据,。,交互式数据处理系统有,Berkeley,的,Spark,和,Google,的,Dremel,等。,3.3,大数据分析系统简介,3.3.4,图,数据及处理系统,图数据,是通过图形表达出来的信息含义,。,图数据处理,的,典型的系统,如,Google,的,Pregel,系统、,Neo4j,系统和微软的,Trinity,系统。,3.4,大数据分析的应用,互联网领域,用户行为数据分析,用户消费数据分析,用户地理位置数据分析,互联网金融数据分析,用户社交等数据分析,3.4,大数据分析的应用,医疗,领域,公共卫生,循证医学,基因组分析,设备远程监控,病人资料分析,疾病预测,临床操作,3.4,大数据分析的应用,提出分析方案,实际数据导入,数据源及数据特征分析,硬件设计方案,ETL,过程,系统配置,互联网用户行为分析,技术上分析,测试,经验总结,例:,某互联网公司用户行为数据进行实时分析,简单测试,ETL,:是英文,Extract-Transform-Load,的缩写,用来描述将数据从来源端经过抽取(,extract,)、转换(,transform,)、加载(,load,)至目的端的过程。,NLPIR,汉语分词,系统,(,上机实验),http,:/ictclas.nlpir.org/,本章小结,大数据分析为处理结构化与非结构化的数据提供了新的途径,。,通过本章内容的学习,,,应该学会大数据分析的方法,,,掌握大数据分析的一般流程与主要技术为大数据的分析应用奠定基础。,大数据技术与应用,计算机中心,第,4,章 大数据可视化,导学,一、学习目标,1.,掌握,大数据可视化和数据可视化的概念,;了解大数据可视化的过程。,2.,了解大数据可视化工具的特性,掌握,Tableau,工具的使用。,二、重点、难点,1.,大数据可视化的概念。,2.,使用,Tableau,设计可视化产品。,4.1,大数据,可视化,简介,众所周知,,我们描述日常行为、行踪、喜欢做的事情等时,这些无法量化的数据量是大得惊人的。很多人说大数据是由数字组成的,而有些时候数字是很难看懂的。而数据可视化可以让我们与数据交互,其超越了传统意义上的数据分析。数据可视化给我们的生活带来了演讲,让人们对枯燥的数字产生了兴趣。,4.1,大数据,可视化,简介,1.,大,数据可视化与数据可视化,数据,可视化,是关于数据的视觉表现形式的科学技术研究。其中,这种数据的视觉表现形式被定义为一种以某种概要形式抽提出来的信息,包括相应信息单位的各种属性和变量,。,大数据可视化,可以理解为数据量更加庞大,结构更加复杂的数据可视化。,4.1,大数据可视化简介,1.,大数据可视化与数据可视化,图,中面朝左边的动物数量正在不断减少,而面朝右边的动物状况则比较稳定,其中有些动物的数量还有所增加。,非洲大型哺乳动物种群的稳定性和濒危状况,4.1,大数据可视化简介,1.,大数据可视化与数据可视化,大数据可视化与数据可视化,的,比较,:,大数据可视化,数据可视化,数据类型,结构化、半结构化、非结构化,结构化,表现形式,多种形式,主要是统计图表,实现手段,各种技术方法、工具,各种技术方法、工具,结果,发现数据中蕴含的规律特征,看到数据及其结构关系,4.1,大数据可视化简介,2.,大,数据可视化的过程,大数据可视化的过程主要有以下,9,个方面,:,(,1,),数据,的,可视化,可视化,的核心的是对原始数据采用什么样的可视化元素来,表达,。,中国电信区域人群检测系统,其中利用柱状图显示年龄的分布情况,利用饼图显示性别的分布情况。,4.1,大数据可视化简介,2.,大,数据可视化的过程,(,2,),指标,的可视化,采用,可视化元素的方式将指标可视化,会将可视化的效果增彩很多,。,图中,显示的是将近,100G,的,QQ,群数据,,其中,企鹅图标的节点代表,QQ,,群图标的节点代表群。每条线代表一个关系,一个,QQ,可以加入,N,个群,一个群也可以有,N,个,QQ,加入。线的颜色分别代表:黄色为群主;绿色为群管理员;蓝色为群成员。群主和管理员的关系线也比普通的群成员长一些,这是为了突出群内的重要成员的关系。,4.1,大数据可视化简介,2.,大,数据可视化的过程,(,3,),数据,关系的可视化,数据,关系往往也是可视化数据核心表达的主题宗旨,。,图中,显示的是将,Windows,比喻成太阳系,,Windows XP,、,Window 7,等比喻成太阳系中的行星;其他系统比喻成其他星系。,4.1,大数据可视化简介,2.,大,数据可视化的过程,(,4,),背景,数据的可视化,光,有原始数据是不够的,因为数据没有价值,信息才有,价值,。,设计师,马特罗宾森和汤姆维格勒沃斯用,不同的圆珠笔和字体写“,Sample,”这个单词。因为不同字体使用墨水量不同,所以每支笔所剩的墨水也不同,。在,这幅图中不再需要标注坐标系,因为不同的笔及其墨水含量已经包含了这个信息,。,4.1,大数据可视化简介,2.,大,数据可视化的过程,(,5,),转换,成便于接受的形式,优化包括,按照人的接受模式、习惯和能力,甚至还需要考虑显示设备的能力,然后进行综合改进,这样才能更好地达到被接受的效果。,例如做一个关于“销售计划”的可视化产品,原始数据是销售额列表,采用柱状图来表达;在图表中增加一条销售计划线来表示销售计划数据;最后在销售计划线上增加勾和叉的符号,来表示完成和未完成计划,如此看图表的人更容易接受。,4.1,大数据可视化简介,2.,大,数据可视化的过程,(,6,),聚焦,聚焦,就必须要讲讲大数据。因为是大数据,所以很多时候数据、信息、符号对于接受者而言是过载的,可能就分辨不出来了,这时我们就需要在原来的可视化结果基础上再进行优化,。,在上述的“销售计划”中,假设这个图表重点是针对没有完成计划的销售员的,那么我们可以强化“叉”是红色的。如果柱状图中的柱是黑色,勾也是黑色,那么红色的叉更为显眼。,4.1,大数据可视化简介,2.,大,数据可视化的过程,大数据可视化的过程主要有以下,9,个方面:,(,7,),集中,或者汇总展示,对这个“销售计划”可视化产品来说,还有很大的完善空间,例如为了让管理者更好地掌握情况,我们可以增加一张没有完成计划的销售人员数据表,这样管理者在掌控全局的基础上,还可以很容易抓住所有焦点,进行逐一处理。,4.1,大数据可视化简介,2.,大,数据可视化的过程,大数据可视化的过程主要有以下,9,个方面:,(,8,)收尾的,处理,修饰是为了让可视化的细节更为精准、甚至优美,比较典型的工作包括设置标题,表明数据来源,对过长的柱子进行缩略处理,进行表格线的颜色设置,各种字体、图素粗细、颜色设置等。,4.1,大数据可视化简介,2.,大,数据可视化的过程,大数据可视化的过程主要有以下,9,个方面:,(,9,),完美,的风格化,所谓,风格化就是标准化基础上的特色化,最典型的例如增加企业、个人的,LOGO,,让人们知道这个可视化产品属于哪个企业、哪个人。,4.2,大,数据可视化工具,Tableau,现在,已经出现了很多大数据可视化工具,从最简单的,Excel,到基于在线的数据可视化工具、三维工具、地图绘制工具以及复杂的编程工具等,正逐步改变着人们对大数据可视化的认识。,4.2,大,数据可视化工具,Tableau,1.,大数据可视化工具的特性,(,1,)实时性:数据可视化工具必须适应大数据时代数据量的爆炸式增长需求,快速的收集分析数据并对数据信息进行实时更新。,(,2,)简单操作:数据可视化工具满足快速开发、易于操作的特性,能满足互联网时代信息多变的特点。,(,3,)更丰富的展现:数据可视化工具需具有更丰富的展现方式,能充分满足数据展现的多维度要求。,(,4,)多种数据集成支持方式:数据的来源不仅仅局限于数据库,数据可视化工具将支持团队协作数据、数据仓库、文本等多种方式,并能够通过互联网进行展现。,4.2,大,数据可视化工具,Tableau,2.Tableau,简介,Tableau,是一款功能非常强大的可视化数据分析软件,其定位在数据可视化的商务智能展现工具。可以用来实现交互地、可视化的分析和仪表盘分析应用。就和,Tableau,这个词汇的原意“画面”一样,它带给用户美好的视觉感官。,4.2,大,数据可视化工具,Tableau,2.Tableau,简介,Tableau,的特性主要包括以下,6,个方面:,(,1,)自助式,BI,(商业智能),,IT,人员提供底层的架构,业务人员创建报表和仪表板,。,(,2,)友好的数据可视化界面,操作简单,用户通过简单的拖拽发现数据背后所隐藏的业务问题。,(,3,)与各种数据源之间实现无缝连接。,(,4,)内置地图引擎。,(,5,)支持两种数据连接模式,,Tableau,的架构提供了两种方式访问大数据量:内存计算和数据库直连。,(,6,)灵活的部署,适用于各种企业环境。,4.2,大,数据可视化工具,Tableau,2.Tableau,简介,Tableau,有桌面版和服务器版,。,桌面,版包括个人版开发和专业版开发,个人版开发只适用于连接文本类型的数据源;专业版开发可以连接所有数据源,。,服务器,版可以将桌面版开发的文件发布到服务器上,共享给企业中其它的用户访问;能够方便的嵌入到任何门户或者,WEB,页面中。,3.Tableau,入门操作,(,1,),连接,数据,1,)选择,数据源,在,Tableau,的工作界面的,左侧显示,可以连接的数据源,。,4.2,大数据可视化工具,Tableau,3.Tableau,入门操作,(,1,),连接数据,2,)打开数据文件,以,Excel,文件为例,选择,Tableau,自带的“超市,.,xls,”文件,4.2,大,数据可视化工具,Tableau,3.Tableau,入门操作,(,1,),连接数据,3,)设置连接,超市,.,xls,中有,3,个工作表,将工作表拖至联接区域就可以开始分析数据了。例如将“订单”工作表拖至联接区域,然后单击工作表选项卡开始分析,数据,。,4.2,大,数据可视化工具,Tableau,3.Tableau,入门操作,(,2,),构建视图,1,)将维度拖至行、列功能区,将窗格左侧中“维度”区域里的“地区”和“细分”拖至行功能区,“类别”拖至列功能,区,。,4.2,大,数据可视化工具,Tableau,3.Tableau,入门操作,(,2,),构建视图,2,)将度量拖至“文本”,将数据窗格左侧中“度量”区域里的“销售额”拖至窗格“标记”中的“文本”标记卡,上,。,4.2,大,数据可视化工具,Tableau,3.Tableau,入门操作,(,2,),构建视图,3,)显示数据,将“标记”,卡中“总计(销售额)”拖至列功能区,数据就会以图形的方式显示出来,。,4.2,大,数据可视化工具,Tableau,3.Tableau,入门操作,(,3,),创建,仪表板,1,)新建仪表板,单击“新建仪表板”,按钮,打开仪表板。然后在“仪表板”的“大小”列表中适当调整大小。,4.2,大,数据可视化工具,Tableau,3.Tableau,入门操作,(,3,),创建仪表板,2,)添加视图,将“销售地图”放在上方,“销售客户细分”和“销售产品细分”分别放在下方。,4.2,大,数据可视化工具,Tableau,3.Tableau,入门操作,(,4,),创建故事,单击【故事】,|,【新建故事】,打开故事视图。从“仪表板和工作表”区域中将视图或仪表板拖至中间区域,。,4.2,大,数据可视化工具,Tableau,在导航器中,单击故事点可以添加标题。单击“新空白点”添加空白故事点,继续拖入视图或仪表板。单击“复制”创建当前故事点的副本,然后可以修改该副本。,3.Tableau,入门操作,(,5,),发布,工作薄,1,)保存工作簿,单击,【文件】,|,【保存】或者【另存为】命令来完成,或者单击工具栏中的“保存”按钮。,2,)发布工作簿,单击,【服务器】,|,【发布工作簿】来实现。,4.2,大,数据可视化工具,Tableau,本章小结,大数据可视化可以说仍是一个崭新的领域,对于可视化研究的重点关键在于仔细研究数据,讲出大多数人从不知晓但却渴望听到的好的故事,从而了解它们背后蕴含的信息。通过本章的学习,可以对大数据可视化有一个基本的了解,为进一步学习大数据可视化打下理论基础。,大数据技术与应用,计算机中心,第,4,章 大数据可视化,导学,一、学习目标,1.,掌握,大数据可视化和数据可视化的概念,;了解大数据可视化的过程。,2.,了解大数据可视化工具的特性,掌握,Tableau,工具的使用。,二、重点、难点,1.,大数据可视化的概念。,2.,使用,Tableau,设计可视化产品。,4.1,大数据,可视化,简介,众所周知,,我们描述日常行为、行踪、喜欢做的事情等时,这些无法量化的数据量是大得惊人的。很多人说大数据是由数字组成的,而有些时候数字是很难看懂的。而数据可视化可以让我们与数据交互,其超越了传统意义上的数据分析。数据可视化给我们的生活带来了演讲,让人们对枯燥的数字产生了兴趣。,4.1,大数据,可视化,简介,1.,大,数据可视化与数据可视化,数据,可视化,是关于数据的视觉表现形式的科学技术研究。其中,这种数据的视觉表现形式被定义为一种以某种概要形式抽提出来的信息,包括相应信息单位的各种属性和变量,。,大数据可视化,可以理解为数据量更加庞大,结构更加复杂的数据可视化。,4.1,大数据可视化简介,1.,大数据可视化与数据可视化,图,中面朝左边的动物数量正在不断减少,而面朝右边的动物状况则比较稳定,其中有些动物的数量还有所增加。,非洲大型哺乳动物种群的稳定性和濒危状况,4.1,大数据可视化简介,1.,大数据可视化与数据可视化,大数据可视化与数据可视化,的,比较,:,大数据可视化,数据可视化,数据类型,结构化、半结构化、非结构化,结构化,表现形式,多种形式,主要是统计图表,实现手段,各种技术方法、工具,各种技术方法、工具,结果,发现数据中蕴含的规律特征,看到数据及其结构关系,4.1,大数据可视化简介,2.,大,数据可视化的过程,大数据可视化的过程主要有以下,9,个方面,:,(,1,),数据,的,可视化,可视化,的核心的是对原始数据采用什么样的可视化元素来,表达,。,中国电信区域人群检测系统,其中利用柱状图显示年龄的分布情况,利用饼图显示性别的分布情况。,4.1,大数据可视化简介,2.,大,数据可视化的过程,(,2,),指标,的可视化,采用,可视化元素的方式将指标可视化,会将可视化的效果增彩很多,。,图中,显示的是将近,100G,的,QQ,群数据,,其中,企鹅图标的节点代表,QQ,,群图标的节点代表群。每条线代表一个关系,一个,QQ,可以加入,N,个群,一个群也可以有,N,个,QQ,加入。线的颜色分别代表:黄色为群主;绿色为群管理员;蓝色为群成员。群主和管理员的关系线也比普通的群成员长一些,这是为了突出群内的重要成员的关系。,4.1,大数据可视化简介,2.,大,数据可视化的过程,(,3,),数据,关系的可视化,数据,关系往往也是可视化数据核心表达的主题宗旨,。,图中,显示的是将,Windows,比喻成太阳系,,Windows XP,、,Window 7,等比喻成太阳系中的行星;其他系统比喻成其他星系。,4.1,大数据可视化简介,2.,大,数据可视化的过程,(,4,),背景,数据的可视化,光,有原始数据是不够的,因为数据没有价值,信息才有,价值,。,设计师,马特罗宾森和汤姆维格勒沃斯用,不同的圆珠笔和字体写“,Sample,”这个单词。因为不同字体使用墨水量不同,所以每支笔所剩的墨水也不同,。在,这幅图中不再需要标注坐标系,因为不同的笔及其墨水含量已经包含了这个信息,。,4.1,大数据可视化简介,2.,大,数据可视化的过程,(,5,),转换,成便于接受的形式,优化包括,按照人的接受模式、习惯和能力,甚至还需要考虑显示设备的能力,然后进行综合改进,这样才能更好地达到被接受的效果。,例如做一个关于“销售计划”的可视化产品,原始数据是销售额列表,采用柱状图来表达;在图表中增加一条销售计划线来表示销售计划数据;最后在销售计划线上增加勾和叉的符号,来表示完成和未完成计划,如此看图表的人更容易接受。,4.1,大数据可视化简介,2.,大,数据可视化的过程,(,6,),聚焦,聚焦,就必须要讲讲大数据。因为是大数据,所以很多时候数据、信息、符号对于接受者而言是过载的,可能就分辨不出来了,这时我们就需要在原来的可视化
展开阅读全文