收藏 分销(赏)

数据可视化ppt课件.pptx

上传人:人****来 文档编号:12930959 上传时间:2025-12-26 格式:PPTX 页数:76 大小:2.27MB 下载积分:8 金币
下载 相关 举报
数据可视化ppt课件.pptx_第1页
第1页 / 共76页
数据可视化ppt课件.pptx_第2页
第2页 / 共76页


点击查看更多>>
资源描述
,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,#,数据可视化,1,数据可视化,数据,可视化,通过,图表形式展现数据,帮助用户快速、准确理解信息。,准确、快速,是可视化的,关键。,借助于,图形化手段,清晰有效地传达与沟通信息同时对数据进行交互分析。,2,数据可视化,为什么需要?,由于,人类大脑在记忆能力的限制,所以我们利用视觉获取的信息量多于感官,在大数据与互联网时代,,各机构从,传统的流程式管理方式过渡到基于数据的管理方式将会成为必然的趋势,数据可视化能够帮助分析的人对数据有更全面的认识。,3,数据可视化,可视化,是解决大数据的一种高效的,手段,。,2009,年,“大数据”开始才成为互联网技术行业中的热门词汇。对“大数据”进行收集和分析的设想,起初来自于世界著名的管理咨询公司麦肯锡公司,;,麦肯锡公司看到了各种网络平台记录的个人海量信息具备潜在的商业价值,于是投入大量人力物力进行调研,在,2011,年,6,月发布了关于“大数据”的报告,该报告对“大数据”的影响、关键技术和应用领域等都进行了详尽的分析。麦肯锡的报告得到了金融界的高度重视,而后逐渐受到了各行各业关注。,4,数据可视化,数据可视化的,目的,其实就是直观地展现数据,例如让花费数小时甚至更久才能归纳的数据量,转化成一眼就能读懂的指标,;,通过加减乘除、各类公式权衡计算得到的两组数据差异,在图中颜色敏感、长短大小即能形成对比,;,数据可视化是一个沟通复杂信息的强大武器,。,通过,可视化信息,我们的大脑能够更好地抓取和保存有效信息,增加信息的印象,。,但,如果数据可视化做的较弱,反而会带来负面效果,;,错误的表达往往会损害数据的传播,完全曲解和,误导观察者,,所以更,需要多维,的展现数据,就不仅仅是单一层面。,5,数据可视化,6,数据可视化,在,大数据没有出现之前,已经有很多对数据加以可视化的经典应用,比如股市里的,K,线了,其试图以可视化的目的来发现某些规律,信息可以用多种方法来进行可视化,每种可视化的方法都有着不同的着重点,特别是在大数据时代,,当我们打算,处理数据时,。,7,数据可视化,数据的特性,数据可视化,先要理解数据,再去掌握可视化的方法,这样才能实现高效的数据可视化,下面是常见的数据类型,在设计时,,可能,会遇到以下集中数据类型:,量性:数据是可以计量的,所有的值都是数字,离散型:数字类数据可能在有限范围内取值。例如,:,学员的人数,。,持续性:数据可以测量,且在有限范围内,例如:年度降水量,范围性:数据可以根据编组和分类而分类,例如:产量销售量,8,数据可视化,可视化,的意义是帮助人更好的分析数据,也就是说他是一种高效的,手段。,9,数据可视化,工具,编程语言,R,Scala,Python,Java,10,数据可视化,比较,类,比较,类显示值与值之间的不同和相似之处。使用图形的长度、宽度、位置、面积、角度和颜色来比较数值的大小,通常用于展示不同分类间的数值对比,不同时间点的数据对比。,11,数据可视化,柱形图,柱,状图无法显示数据在一个区间内的连续变化趋势。柱状图描述的是分类数据,回答的是每一个分类中“有多少,?”,这个问题,。,12,数据可视化,适合,的数据,:一个分类,数据字段,、一个连续,数据字段,功能:对比分类数据的数值大小,数据与图形的映射:分类数据字段映射到横轴的位置,连续,数据字段映射到矩形的高度,分类,数据也可以设置颜色增强分类的区分度,适合的数据条数:不超过,12,条数据,13,数据可视化,分布类,分布类显示频率,数据分散在一个区间或分组。使用图形的位置、大小、颜色的渐变程度来表现数据的分布,通常用于展示连续数据上数值的分布情况。,14,数据可视化,散点图,散点图也叫,X-Y,图,它将所有的数据以点的形式展现在直角坐标系上,以显示变量之间的相互影响程度,点的位置由变量的数值决定。,15,数据可视化,适合的数据:两个连续数据字段,功能,:观察数据的分布情况,数据与图形的映射:两个连续字段分别映射到横轴和纵轴。,适合的数据条数:无限制,备注:可更具实际情况对点的形状进行分类字段的映射。,点,的颜色进行分类或连续字段的映射。,16,数据可视化,占比类,占比类显示同一维度上占比关系。,饼图,饼图广泛得应用在各个领域,用于表示不同分类的占比情况,通过弧度大小来对比各种分类。饼图通过将一个圆饼按照分类的占比划分成多个区块,整个圆饼代表数据的总量,每个区块,(,圆弧,),表示该分类占总体的比例大小,所有区块,(,圆弧,),的加和等于,100%,。,17,数据可视化,适合,的数据:,列表:一个分类,数据字段,、一个连续,数据字段,功能:对比,分类数据的数值大小,数据与图形的映射:分类数据字段映射到扇形的颜色,连续,数据字段映射到扇形的面积,适合的数据条数:不超过,9,条数据,18,数据可视化,区间类,区间类显示同一维度上值的上限和下限之间的差异。使用图形的大小和位置表示数值的上限和下限,通常用于表示数据在某一个分类,(,时间点,),上的最大值和最小值。,19,数据可视化,仪表盘,仪表盘,(Gauge),是一种拟物化的图表,刻度表示度量,指针表示维度,指针角度表示数值。仪表盘图表就像汽车的速度表一样,有一个圆形的表盘及相应的刻度,有一个指针指向当前数值。目前很多的管理报表或报告上都是用这种图表,以直观的表现出某个指标的进度或实际情况。,20,数据可视化,适合的数据,:,一,个分类字段,一个连续字段,功能:对比,分类字段对应的数值大小,数据与图形的映射,:,指针,映射到分类字段,,,指针,的角度映射连续字段,适合的数据条数,:,小于等于,3,21,数据可视化,趋势类,趋势,类分析数据的变化趋势。使用图形的位置表现出数据在连续区域上的分布,通常展示数据在连续区域上的大小变化的规律。,折线图,折线图,用于显示数据在一个连续的时间间隔或者时间跨度上的变化,它的特点是反映事物随时间或有序类别而变化的趋势。,22,数据可视化,适合,的数据:两个连续字段数据,或者一个有序的分类一个连续数据字段,功能:观察,数据的变化趋势,数据,与图形的映射:两个连续字段分别映射到横轴和纵轴,适合,的数据条数:单条线的数据记录数要大于,2,,但是同一个图上不要超过,5,条折线,23,数据可视化,时间,类,时间,类显示以时间为特定维度的数据。使用图形的位置表现出数据在时间上的分布,通常用于表现数据在时间维度上的趋势和变化。,面积,图,面积,图又叫区域图。它是在折线图的基础之上形成的,它将折线图中折线与自变量坐标轴之间的区域使用颜色或者纹理填充,这样一个填充区域我们叫做面积,颜色的填充可以更好的突出趋势信息,需要注意的是颜色要带有一定的透明度,透明度可以很好的帮助使用者观察不同序列之间的重叠关系,没有透明度的面积会导致不同序列之间相互遮盖减少可以被观察到的信息。,24,数据可视化,适合的数据:两个连续字段数据,功能:观察,数据变化趋势,数据,与图形的映射:两个连续字段分别映射到横轴和纵轴,适合,的数据条数:大于两条,25,数据可视化,地图类,地图,类显示地理区域上的数据。使用地图作为背景,通过图形的位置来表现数据的地理位置,通常来展示数据在不同地理区域上的分布情况。,带,气泡的地图,带,气泡的地图,其实就是气泡图和地图的结合,我们以地图为背景,在上面绘制气泡。我们将圆,(,这里我们叫它气泡,),展示在一个指定的地理区域内,气泡的面积代表了这个数据的大小。,26,数据可视化,适合的数据,:,一个分类字段,一个连续字段,功能:对比,分类数据的数值大小,数据,与图形的映射,:,一个分类字段映射到地图的地理位置和气泡颜色,另,一个连续字段映射到气泡大小,适合,的数据条数,:,根据实际地理位置信息,无限制,27,其它常见形式,气泡图,、雷达图、热力图,、词云图、,28,数据可视化,气泡图展示多维度组合,数据,29,数据可视化,雷达图多变量可视化图形,30,数据可视化,热力图,人流预估,31,数据可视化,词云图关键词展现,32,数据可视化,用户体验,用户,视觉,合格,的数据可视化是有新闻价值的。也就是说,它要能帮助目标观众更好地理解数据。有些数据可视化,只让我们看到酷炫狂拽的图形,或者密密麻麻的数据。这些就是过于看重艺术性和科学性,而忽略根本目的了,。,33,数据可视化,色彩空间,人类,对于颜色感知的方式通常包括三个问题:是什么颜色,?,深浅如何,?,明暗如何,?,人群,中存在一部分人具有视觉缺陷,包括色盲、色弱等。为了帮助他们识别图表,可能需要采取一些特殊方法。,一,个好的可视化工程师,必定也是一个好的,UX(,用户体验,),,所以不光要以易读性为目标努力,用户们也要问问自己:这份可视化是给我看的吗,?,我看的方式是否正确,?,34,数据可视化,在,数据可视化的工程中,,在,分析中所采取的具体步骤会随着数据集和项目的不同而不同,但在探索数据可视化和数据挖掘时,总体而言应考虑以下四点:,拥有什么数据,?,关于数据你想了解什么,?,应该使用哪种可视化方式,?,你看见了什么,有意义吗,?,35,数据可视化,常见方法,数据采集:在数据采集过程中进行数据分类,根据数据属性和方法去可视化解决问题;,可视化映射:将数据的数值、空间坐标、不同位置数据间的联系等映射为可视化视觉通道的不同元素如标记、位置、形状、大小和颜色;,数据变换和处理:通过去噪,清洗数据、提取数据;,用户验证:数据的正确与否,需要用户的大胆假设和积极验证,反复验证数据的合理性等,从而向公众或者上司展示数据。,36,数据可视化,优秀,的数据可视化讲究场景应用,结合数据分析逻辑,制定高效决策。好的数据可视化的体验,是通过美好有效的表达更好的分享和传达数据信息。数据可视化给大数据的各种实践落地提供了检验依据,大量枯燥的数据可以通过数据合理的数据可视化实践,得以落地且容易被用户感知,。,37,数据可视化,目前,整个数据可视化大致可以分为两个方向:,1,、注重,展示,2,、注重,分析,现有,的数据可视化产品已涉猎的领域有:互联网、零售快消、电商、,O2O,、物流、金融、医疗和教育等众多行业。,38,数据可视化,图表的基本组成,元素,一,张图表至少包含:标题、横纵坐标轴、数据系列、数据标签、图例等部分,每一部分都在图表中扮演特定的角色表达特定的信息。,39,数据可视化,matplotlib,matplotlib,是,Python,可视化程序库的泰斗。经过十几年它任然是,Python,使用者最常用的画图库,。,matplotlib,是第一个,Python,可视化程序库,有许多别的程序库都是建立在它的基础上或者直接调用它。比如,pandas,和,Seaborn,就是,matplotlib,的外包,,它们能,用更少的代码去调用,matplotlib,的方法。,40,线,图,使用,plot(,),创建,带文本标签的线条,图。,多子图组合图,使用,subplot(),函数,创建多轴(即子图,)。,数据可视化,41,图片,Matplotlib,可以使用,imshow,(),函数,显示图像。,轮廓线和伪彩色,pcolormesh,(),函数,也可以,对,二,维数组进行着,色表示,。,contour,(),函数,是,表示对此相同数据,的,另一种,方式。,使用imshow()显示CT扫描,pcolormesh,()和contour,(),绘制,二维数,据,数据可视化,42,直方图,hist,(),函数,自动生成,直方图,并,返回二进制计数或,概率。,路径,可以,使用,matplotlib.path,模块,在,Matplotlib,中添加任意,路径。,数据可视化,43,Streamplot,streamplot,(),函数,绘制矢量场的流线,。,除了简单绘制流线之外,它还允许将,流线,的,颜色和,/,或线宽映射到单独的参数,,,例如,矢量场的速度或局部强度。,三维绘图,mplot3d,工具包支持,简单的,3d,图形,,,包括,曲面,线框,散点图和条形图。,数据可视化,44,椭圆,图,为了,支持,Phoenix,火星,飞行,任务(,使用,Matplotlib,显示航天器的,地面跟踪,),,Michael,Droettboom,在,Charlie,Moad,的工作基础上,为,椭圆,弧提供了非常准确的,8,样条逼近。,条形图,使用,bar,(),函数,制作条形图,,,其中,包括自定义,内容。,数据可视化,45,饼,图,pie(),函数,的作用是,:,创建饼图,。,可自动,标记区域的,百分比,,从饼图中心分裂出一,个或多个楔形物,,,以及,一个阴影效果,。,表,table(),函数,的作用是,:,将,文本表添加到坐标轴中。,数据可视化,46,散点图,scatter(),函数,的作用是,:,用,(,可选,),大小和颜色,参数进行,散点图,。,右图绘制,了谷歌的股票价格变化,,标记,大小反映了交易量和颜色随时间,的变化,。在这里,,alpha,属性被用来制作半透明的圆圈标记。,GUI,窗口,Matplotlib,具有独立于所用图形用户界面的基本,GUI,窗口,。,数据可视化,47,填充曲线,fill,(),函数可绘制,填充曲线和,多边形。,日期处理,可以,为时间序列数据绘制主要和次要刻度以及两种自定义刻度格式。,数据可视化,48,对数图,semilogx,(),,,semilogy,(),和,loglog,(),函数,简化了对数图的创建,。,极坐标图,polar,(),函数,生成极坐标图。,数据可视化,49,TeX-notation,文本,对象,图例,legend,(),函数,自动生成图例,并带有与,MATLAB,兼容的图例布局,功能。,数据可视化,50,TEX,标记,数据可视化,51,柱状图、线形图、堆积柱状图,数据可视化,52,from,matplotlib.pyplot,import,*x=,1,2,3,4,5,6,y=,3,4,6,7,3,2,#create new figure,figure(),#线,subplot(,2,3,1,)plot(x,y),#柱状图,subplot(,2,3,2,)bar(x,y),#水平柱状图,subplot(,2,3,3,)barh(x,y),#叠加柱状图,subplot(,2,3,4,)bar(x,y)y1=,2,3,4,5,6,7,bar(x,y1,bottom,=y,color,=,r,),#箱线图,subplot(,2,3,5,)boxplot(x),#散点图,subplot(,2,3,6,)scatter(x,y)show(),数据可视化,53,数据可视化,箱线图和直方图,54,数据可视化,from,matplotlib.pyplot,import,*figure()dataset=,1,3,5,7,8,3,4,5,6,7,1,2,34,3,4,4,5,6,3,2,2,3,4,5,6,7,4,3,subplot(,1,2,1,)boxplot(dataset,vert,=,False,)subplot(,1,2,2,),#直方图,hist(dataset)show(),55,数据可视化,正弦余弦及图标,56,数据可视化,from,matplotlib.pyplot,import,*,import,numpy,as,npx=np.linspace(-np.pi,np.pi,256,endpoint,=,True,)y=np.cos(x)y1=np.sin(x)plot(x,y)plot(x,y1),#图表名称,title(,Functions$sin$and$cos$,),#x,y轴坐标范围,xlim(-,3,3,)ylim(-,1,1,),#坐标上刻度,xticks(-np.pi,-np.pi/,2,0,np.pi/,2,np.pi,r$-pi$,r$-pi/2$,r$0$,r$+pi/2$,r$+pi$,)yticks(-,1,0,1,r$-1$,r$0$,r$+1$,),#网格,grid()show(),57,数据可视化,设置图表的线型、属性和格式化字符串,58,数据可视化,from,matplotlib.pyplot,import,*,import,numpy,as,npx=np.linspace(-np.pi,np.pi,256,endpoint,=,True,)y=np.cos(x)y1=np.sin(x),#线段颜色,线条风格,线条宽度,线条标记,标记的边缘颜色,标记边缘宽度,标记内颜色,标记大小,plot(,1,2,c,=,r,ls,=,-,lw,=,2,marker,=,D,mec,=,g,mew,=,2,mfc,=,b,ms,=,30,)plot(x,y1),#图表名称,title(,Functions$sin$and$cos$,),#x,y轴坐标范围,xlim(-,3,3,)ylim(-,1,4,),#坐标上刻度,xticks(-np.pi,-np.pi/,2,0,np.pi/,2,np.pi,r$-pi$,r$-pi/2$,r$0$,r$+pi/2$,r$+pi$,)yticks(-,1,0,1,r$-1$,r$0$,r$+1$,)grid()show(),59,数据可视化,设置刻度、时间刻度标签、网格,60,数据可视化,import,matplotlib.pyplot,as,mpl,from,pylab,import,*,import,datetime,import,numpy,as,npfig=figure()ax=gca(),#时间区间,start=datetime.datetime(,2017,11,11,)stop=datetime.datetime(,2017,11,30,)delta=datetime.timedelta(,days,=,1,)dates=mpl.dates.drange(start,stop,delta)values=np.random.rand(,len,(dates)ax.plot_date(dates,values,ls,=,-,)date_format=mpl.dates.DateFormatter(,%Y-%m-%d,)ax.xaxis.set_major_formatter(date_format)fig.autofmt_xdate()show(),61,数据可视化,添加图例和注释,62,数据可视化,from,matplotlib.pyplot,import,*,import,numpy,as,npx1=np.random.normal(,30,2,100,)plot(x1,label,=,plot,),#图例#图标的起始位置,宽度,高度 归一化坐标#loc 可选,为了图标不覆盖图#ncol 图例个数#图例平铺#坐标轴和图例边界之间的间距,legend(,bbox_to_anchor,=(,0.,1.02,1.,.102,),loc,=,4,ncol,=,1,mode,=,expand,borderaxespad,=,0.1,),#注解#Import data 注释#(55,30)要关注的点#xycoords=data 注释和数据使用相同坐标系#xytest 注释的位置#arrowprops注释用的箭头,annotate(,Import data,(,55,30,),xycoords,=,data,xytext,=(,5,35,),arrowprops,=,dict,(,arrowstyle,=,-,)show(),63,数据可视化,直方图、饼图,64,数据可视化,import,matplotlib.pyplot,as,plt,import,numpy,as,npmu=,100,sigma=,15,x=np.random.normal(mu,sigma,10000,)ax=plt.gca()ax.hist(x,bins,=,30,color,=,g,)ax.set_xlabel(,v,)ax.set_ylabel(,f,)ax.set_title(,r$mathrmHistogram:mu=%d,sigma=%d$,%(mu,sigma)plt.show(),65,数据可视化,66,数据可视化,from,pylab,import,*figure(,1,figsize,=(,6,6,)ax=axes(,0.1,0.1,0.8,0.8,)labels=,spring,summer,autumn,winter,x=,15,30,45,10,#explode=(0.1,0.2,0.1,0.1),explode=(,0.1,0,0,0,)pie(x,explode,=explode,labels,=labels,autopct,=,%1.1f%,startangle,=,67,)title(,rainy days by season,)show(),67,数据可视化,设置坐标轴,68,数据可视化,import,matplotlib.pyplot,as,plt,import,numpy,as,npx=np.linspace(-np.pi,np.pi,500,endpoint,=,True,)y=np.sin(x)plt.plot(x,y)ax=plt.gca(),#top bottom left right 四条线段框成的#上下边界颜色,ax.spines,right,.set_color(,none,)ax.spines,top,.set_color(,r,),#坐标轴位置,ax.spines,bottom,.set_position(,data,0,)ax.spines,left,.set_position(,data,0,),#坐标轴上刻度位置,ax.xaxis.set_ticks_position(,bottom,)ax.yaxis.set_ticks_position(,left,)plt.grid()plt.show(),69,数据可视化,误差条形图,70,数据可视化,import,matplotlib.pyplot,as,plt,import,numpy,as,npx=np.arange(,0,10,1,)y=np.log(x)xe=,0.1,*np.abs(np.random.randn(,len,(y)plt.bar(x,y,yerr,=xe,width,=,0.4,align,=,center,ecolor,=,r,color,=,cyan,label,=,experimert,)plt.xlabel(,x,)plt.ylabel(,y,)plt.title(,measurements,)plt.legend(,loc,=,upper left,),#这种图例用法更直接,plt.show(),71,数据可视化,带填充区域的图表,72,数据可视化,import,matplotlib.pyplot,as,plt,from,matplotlib.pyplot,import,*,import,numpy,as,npx=np.arange(,0,2,0.01,)y1=np.sin(,2,*np.pi*x)y2=,1.2,*np.sin(,4,*np.pi*x)fig=figure()ax=gca()ax.plot(x,y1,x,y2,color,=,b,)ax.fill_between(x,y1,y2,where,=y2y1,facecolor,=,g,interpolate,=,True,)ax.fill_between(x,y1,y2,where,=y2y1,facecolor,=,darkblue,interpolate,=,True,)ax.set_title(,filled between,)show(),73,数据可视化,散点图,74,数据可视化,import,matplotlib.pyplot,as,plt,import,numpy,as,npx=np.random.randn(,1000,)y1=np.random.randn(,len,(x)y2=,1.8,+np.exp(x)ax1=plt.subplot(,1,2,1,)ax1.scatter(x,y1,color,=,r,alpha,=,.3,edgecolors,=,white,label,=,no correl,)plt.xlabel(,no correlation,)plt.grid(,True,)plt.legend()ax1=plt.subplot(,1,2,2,),#alpha透明度 edgecolors边缘颜色 label图例(结合legend使用),plt.scatter(x,y2,color,=,g,alpha,=,.3,edgecolors,=,gray,label,=,correl,)plt.xlabel(,correlation,)plt.grid(,True,)plt.legend()plt.show(),75,Thank You!,76,
展开阅读全文

开通  VIP会员、SVIP会员  优惠大
下载10份以上建议开通VIP会员
下载20份以上建议开通SVIP会员


开通VIP      成为共赢上传

当前位置:首页 > 包罗万象 > 大杂烩

移动网页_全站_页脚广告1

关于我们      便捷服务       自信AI       AI导航        抽奖活动

©2010-2025 宁波自信网络信息技术有限公司  版权所有

客服电话:0574-28810668  投诉电话:18658249818

gongan.png浙公网安备33021202000488号   

icp.png浙ICP备2021020529号-1  |  浙B2-20240490  

关注我们 :微信公众号    抖音    微博    LOFTER 

客服