1、大数据可视化第四章 数据可视化的常用方法4.1视觉编码412统计图表可视化方法幺3?可视傕方法4.4 可视化允析方法的常用算法4.5 可视化方法的选择习题4.1视觉编码第四章数据可视化的常用方法 4.1.1视觉感知选择可视化方法之前,需要掌握视觉感知(Visual Perception)和视觉认知(Visual Cognition)的概念。视觉感知是指客观事物通过人的视觉器官在人脑中形成的直接反映,人类只有通过视觉感知,才能达到视觉认知。通常而言,人类的视觉感知器官最 灵敏,感知外在事物的效率和效果都优于其他感知器官。The Bottom Lbtf is divided into years,
2、the Right hand line into L1QOOO each.4.1视觉编码第四章数据可视化的常用方法 4.1.2视觉通道视觉通道:用于控制几何标记的展示特性,包括标记的位置、大小、形状、方向、色调、饱和度、亮度等。视觉通道分为两大类:定性(分类)的视觉通道,如形状、颜色的色调、空间位置;定量(连续、有序)的视觉通道,如直线的长度、区域的面积、空间的体积、斜度、角度、颜色的饱和度和亮度等。4.1视觉编码第四章数据可视化的常用方法 4.1.3数据分类对于信息可视化中数据类型的划分,从数据可视化类型出发研究可视化过程,可以参考基 于任务分类学的数据类型(TTr,data Type by
3、 Task Taxonomy)o TTT定义了 7种基本 任务:总览、缩放、过滤、按需细化、关联、历史和提取;并将数据分为7类:一维线性 数据、二维数据、三维数据、多维数据、时态数据、树型数据和网状数据。4.1视觉编码第四章数据可视化的常用方法 4.1.4常用的复杂数据处理方法通过实验测量、计算机仿真、网络数据传输和文件输入/输出等方法获取数据之后,通常要 对复杂数据进行预处理,常见数据操作包括:合并、采样、降维、特征子集选择、特征生成、离散化与二值化、属性变换。90文目00 20“7”00172|过&8天/窈页加二次践,”(一逢 45czlmV注*分广分析BWhXi9析双 MPtl外 钱分气
4、(DkBI CCDkM。r*渠道分析尸8分V分析r“分vi30.73830.314海分析Rwiu 件分析不向又通的注密网尸豉第四章 数据可视化的常用方法4.1 视觉编码4.2 统计图表可视化方法且3峭可视傕方法4.4 可视化允析方法的常用算法4.5 亘视化方法的选择习题4.2统计图表可视化方法第四章数据可视化的常用方法 4.2.1柱状图柱状图(bar chart),是一种以长方形的长度为变量的表达图形的统计报告图。优势:柱状图利用柱子的高度,反映数据的差异,肉眼对高度差异很敏感。劣势:柱状图的局限在于只适用中小规模的数据集。1、传统二维柱状图传统柱状图一般用于表示客观事物的绝对数量的比较或者变
5、化规律,用于显示一段时间内数据的变化,或者显示不同项目之间的对比,分为:二维簇状柱形图、二维堆积柱形图、二维增施艮务业务成为物流公司的主营业务某公司连续三年业绩分析,单位:万元4.2统计图表可视化方法第四章数据可视化的常用方法 4.2.1柱状图2、三维柱状图三维柱状图的可视化效果更佳直观,而且能够在第三个坐标轴显示三维数据。三维柱状图采 用柱体来量化数据,同时对柱体可以采用不用的颜色编码,来表述不同的变量。2011 2012 2013项项项QJ 9U 11TTTT TUT TTTT4.2统计图表可视化方法第四章数据可视化的常用方法 4.2.2条形图排列在工作表的列或行中的数据可以绘制到条形图中
6、。条形图显示各个项目之间的比较情况。4.2.3折线图折线图适用于二维大数据集,尤其是那些趋势比单个数据点更重要的场合。4.2.4饼图饼图适用于一维数据可视,尤其是能反映数据序列中各项大小、总和和相互之间比例大小。4.2.5散点图散点图适用于三维数据集,但其中只有两维需要比较。4.2.6气泡图气泡图是散点图的一种变形,通过每个点的面积大小,反应第三维。4.2.7雷达图雷达图适用于多维数据(四维以上),且每个维度必须可以排序。4.2统计图表可视化方法第四章数据可视化的常用方法却 昨 13 01-14 01-15 01-16 fl 0V17 01-18第四章 数据可视化的常用方法4.1 视觉编码4.
7、2 统计图表可视化方法且3峭可视傕方法4.4 可视化允析方法的常用算法4.5 亘视化方法的选择习题4.3图可视化方法第四章数据可视化的常用方法 4.3.1图的类型1、关系图可视化最重要的作用之一,便是能够表达关系。这些关系组成了已经定义的世界或系统。图能够使得我们以一种非常容易理解的方式来描述和表达世界。2、分层对于分层数据中获取信息,图也是一个很好的选择。分层图常被称树。树有一个根父节点,其链接分支到第二个节点,第二级节点还可能再次分支,以此类推,直到到达没有子节点的 叶子节点,根节点的每个后代节点都只有一个父节点。4.3图可视化方法第四章数据可视化的常用方法 4.3.2图论可视化图论(Gr
8、aph Theory)是数学的一个分支。它以图为研究对象。图论中的图是由若干给定 的点及连接两点的线所构成的图形,这种图形通常用来描述某些事物之间的某种特定关系,用点代表事物,用连接两点的线表示相应两个事物间具有这种关系。欧阳菁李达康赵东来侯亮平高育良芬 B 吴汉东卷反南M攸森处长 汉东省反金赭局长 最高校反农总局 汉东省公安厅 汉东大学法学院竞总支副书记/一处处长4 厅长陈岩石 藜成功 的小艾汉东省依察院联常务部履察长 大风服饰集团 中妃委某室副主任(甘兴导、说坦大风L)量事长、启经理工条号/计回门门。门说事4.3图可视化方法第四章数据可视化的常用方法 4.3.3思维导图思维导图(Mind
9、Map),即借助图表来分析问题、理清思路。常见的思维图有八种:Circle Map圆圈图、Tree Map树状图、Bubble Map气泡图、Double Bubble M叩双重 气泡图、Flow Map流程图、Multi-flow Map多重流程图、Brace Map括号图,和Bridge Map桥型图。第四章 数据可视化的常用方法4.1 视觉编码4:2统计图表可视化方法4.3 图可视化方法4.4 可视化分析方法的常用算法4.5 延法的选择习题4.4可视化分析方法的常用算法第四章数据可视化的常用方法 4.4.1可视化分析方法1.沙盒分析法沙盒分析的关键能力主 要有:认知、自动处理 模型范本、
10、想法的解读。运用网络服务界面和协 议,整合了高级计算机 语言功能。模型处理实时数 据模型/指令识 别(细节处理聚类工程界 面实体输入设备捕 捉关联分析,-安排(分析方法模式处理(行为仿真)参考设计行为处理注释J仿真引(数据收集)(导航)(图表处理_)(最优化渲染平台)4.4可视化分析方法的常用算法第四章数据可视化的常用方法 4.4.1可视化分析方法2、认知作业分析法认知作业分析是人们对完成特定任务的思维过程信息,这些信息包括如何去处理所获取的信 息和下一步该做什么。3、顺序模式法顺序模式被用来发现离散事件同时发生的概率。随着计算机的发展,我们能处理更庞大的数 据并且获得大量的顺序模式。每个顺序
11、模式包含一个最小概率,其意义为这个模式发生的百 分比。其优点是快速地显示数据的结构与分布、显示单个事件的发生频率、准确性高;应用 于文本挖掘。4.4可视化分析方法的常用算法第四章数据可视化的常用方法 4.4.1可视化分析方法 4、协同多视图法多视图可用多种形式的 视图,如促进信息加工 中的抽象视图、分层和 时间序列的视图。在可 视分析中实现协同并不 容易,因为没有正式的 协同规则,有的规则也 不是万能的,需要具有 一定的针对性才能体现 协同多视图法的效果。4.4可视化分析方法的常用算法第四章数据可视化的常用方法 4.4.2可视分析研究的特点可视分析学从6个基本方面放大了人类感知能力:(1)增加
12、感知源,如通过可视化源来扩展人类工作记忆。(2)减少搜索,例如在小空间中表示大量数据。(3)增强模式认知,如在空间中展示具备时间序列特征的信息。(4)支持关系可感知的简易推理。(5)对大量潜在事件的感知监测。(6)提供可操作的介质,与静态图不同,能允许探索参数值的表示空间。4.4可视化分析方法的常用算法第四章数据可视化的常用方法 4.4.3可视分析的应用实例1、模型和决策支持回归模型在许多应用领域 中扮演着重要角色,典型 的回归模型构建过程中输 入变量的特征子集选取受 到限制,其他局限还存在 于局部结构、转换以及变 量间交互的识别。4.4可视化分析方法的常用算法第四章数据可视化的常用方法 4.
13、4.3可视分析的应用实例2、图像和视频数据处理图像和视频数据是继文本数据之后的又一大数据类型,可视分析学在这两种数据分析上同样4.4可视化分析方法的常用算法第四章数据可视化的常用方法 4.4.3可视分析的应用实例3、社会媒体数据分析可视分析学还被用 至社会媒体数据分 析、社会网络分析、文档重建系统和人 类地形分析等领域。论坛/论坛厘合 社交游迷楔舞分享社交网络博客/得客霆合乐/OS 片分享且2险Bai若略8X2.,,姆口flickrJXJIrenren商务社交 网培YUl OO社会化书35XMIMsa n w*:3Uc oil yCUKUWH日翻朝 MR血4”bloq!一3ISJS社会化电 子
14、育努签到/位H 眼努5cX.ai百科即时通而中国社会化媒体格局概览B-TASK 9”tilluj SO OF*Ba iSO MBAhb消费点评投 HKhi鲜果RSSiJW)4.4可视化分析方法的常用算法第四章数据可视化的常用方法 4.4.4主成分分析主成分分析(Principal Component Ana lysis,PC A)法是一种利用线性映射来进行数据降维 的方法,同时去除数据的相关性,以最大限度保持原始数据的方差信息,从而进行有效的特 征提取。4.4.5聚类分析(1)系统聚类法将变量由多变少的一种方法,先将距离最小的变量归为一类,再将它们合并,合并后将新类 计算相互间的距离,再将距离
15、最小的新类合并,直到所有变量归为一类为止。距离的定义有:最短距离法、最长距离法、中心法、类平均法、中间距离法、离差平法和法等。(2)动态聚类法能较好地解决系统聚类当样本数量大时计算量大的问题。动态聚类先设定好数值K,然后将 所有样本分成K类作为聚核,再计算每个样本到聚核的距离,与聚核距离最小的样本归为一 类,这样样本被分为K类;然后依次继续进行分类,并按一定的标准停止分类。4.4可视化分析方法的常用算法第四章数据可视化的常用方法 4.4.6因子分析因子分析是从假定的因子模型出发,把复杂数据视为由公共因子、误差和特殊因子构成。使 用了主成分分析的方法但其关于特征值的计算是以相关矩阵作为出发,把每
16、个变量置于同一 度量,使特征值相对均匀,并将主成分转换成因子,还把特征向量正规化使之长度为1。4.4.7层次分析法层次分析法能对大量的非定量的模糊数据进行处理,如良好、优秀、一般等,层次分析法用 定量的方法去描述这些数据,将定性和定量相结合,分层次分析,用数学的方法确定每一层 中所有元素的重要性的权值,最后分析排序结果,解决问题。层次分析的步骤为:(1)构造判断矩阵(2)计算层次单排序(3)计算各层元素的组合权重(4)一致性检验第四章 数据可视化的常用方法4.1视觉编码4:2统计图表可视化方法幺3?可视傕方法4.4可视化允析方法的常用算法4.5可视化方法的选择习题4.5可视化方法的选择第四章数
17、据可视化的常用方法为数据选择正确的图表和图的时候,除了要依据格式塔原则之外,还要参照可视化模型,遵 循各种方法的优势,优秀的可视化作品总是精挑细选方法之后,选择多种方法联合呈现数据。因此,在研究的初期阶段,更重要的是要从不同的角度观察数据。内在规律洞察、总结可视化领域用户建立 A物理模型验证分析(用户)图形/图像可视化进程 交互控制计算或实验模型.模拟计算/实 验计算或实验数据4.5可视化方法的选择第四章数据可视化的常用方法在可视化图表工具的表现形式方面,图表类型表现的更加多样化,丰富化。除了传统的饼图、柱状图、折线图等常见图形,还有气泡图、面积图、省份地图、词云、瀑布图、漏斗图等酷 炫图表,
18、甚至还有GIS地图。这些种类繁多的图形能满足不同的展示和分析需求。下图总结 了根据需求分析可采用的统计可视化方法。4.4可视化方法的选择第四章数据可视化的常用方法4.5可视化方法的选择第四章数据可视化的常用方法 4.5.1实时人流检测城静施人漉解藕Ik 哪 h A 心 MuagM如图展示上海市区域内,通过热力图的方式来反映 各商圈的人流信息,人数 越多的地方越好。为了获 得更具体的人流数据,我 们还加入信息点,通过地 图覆盖物实现。当鼠标悬 浮到信息点的时候,会显 示该商圈具体人流情况,我们使用了哪些数据,就 显不出来。胤例研It 114711 Au*跚A渺,利则a#I人游出ffiMIA 酬;
19、MAMIARTMMftMDVtUHI 5IKMII 版15mItWM“Al础 例lunMl揪H火的例 casmkiK 酬IBMMl)w 口酬捌 吓旗IM八你6MUI UM ttMM X?:4.5可视化方法的选择第四章数据可视化的常用方法 4.5.2百度地图开发百度地图是百度提供的一 项网络地图搜索服务,覆 盖了国内近400个城市、数千个区县。在百度地图 里,用户可以查询街道、商场、楼盘的地理位置,也可以找到离您最近的所 有餐馆、学校、银行、公 园等等。4.5可视化方法的选择第四章数据可视化的常用方法 4.5.3城市人流走势Echarts是一个纯 JavaScript的图标库,可 以流畅的运行在
20、PC和移动 设备上,兼容当前绝大部 分浏览器(IE8/9/10/11,Chrome,Firefox,Safari 等),底层依赖轻量级的 Canvas类库ZRender,提 供直观、生动、可交互,可高度个性化定制的数据 可视化图表。4.5可视化方法的选择第四章数据可视化的常用方法 4.5.4全球海底电缆可视化如图是一个基于地图的2014年全球海底电缆可视化展示,可以从这里查看到分布在世界各地的信 息,数据是从维基百科和谷歌里获取,并采用D3.js库进行可视化展示。4.5可视化方法的选择第四章数据可视化的常用方法 4.5.5 D3.js和Echarts选择上的建议在图表制作的JavaScript
21、库中,有前面提到的Echarts,d3.js,这里在介绍一个highcharts.js,Highcharts和echarts是一类东西,但跟d3.js维度不同。假如前面两个能解决你的需求,那么就可 以先不考虑d3。英语好选highcharts,英语不好选echarts。当然最好要先评估一下它们对浏览器 的兼容性,免得写完了发现用户那运行不了。Highcharts和echarts基本上就是画图表用的,而 d3.js更自由些,你很容易去做出自己想要的效果,比如mindchart、heat charts tile chart之类 的东西。d3.js源码封装对svg的操作,而svg不依赖分辨率,而ca
22、nvas则依赖分辨率低,对密集型 游戏处理效果还是很不错的,而svg对复杂高的渲染速度会很慢.不过d3.js最新的迭代版本已经支 持canvas操作。4.5可视化方法的选择第四章数据可视化的常用方法 4.5.6优秀的数据可视化作品欣赏http:/ r爱奇艺中可以搜索可视化看到。这里不是打广告哈。D3制作的example(注意迭代版本):https:/ pv.ba id u.co m/看名字就知道:http:/ 数据可视化的常用方法4.1视觉编码4:2统计图表可视化方法幺3?可视傕方法4.4可视化允析方法的常用算法4.5可视化方法的选择习题习题:1.API绘图设计A)设计一个基于API结构的Wi
23、ndows应用程序,并使用GDI绘制圆柱,圆锥 和立方体。三个图可以放大缩小和移动。B)设计一个基于API结构的Windows应用程序,并使用GDI绘制抛物线,双 曲线。放大缩小和移动。2.基于MFC对话框的程序设计A)设计一个基于MFC对话框的程序,该程序对话框有两个滚动条,每个滚动 条对应一个编辑框。随着滚动条的滚动编辑框中的数字相应的增加或减少。两个编辑框的和等于自三个编辑框的数据B)设计一个基于MFC对话框的程序,对List进行添加,修改和删除。C)设计一个基于MFC对话框的程序,对ListCtrl进行添加,修改和删除。D)使用继承方法改变静态标签控件的颜色。E)使用继承方法改变编辑框控件的颜色。习题:3.基于文档视图的程序设计A)设计一个通信录,使用VC设计,使用序列化进行存储。B)设计一个简单图形系统,使用序列化进行存储图形,可以画圆和矩形,可 以计算图形总面积。使用类和继承。C)设计一个学生系统,包含学生科目和学分。可以统计学生的平均分数。D)设计一个城市公交系统,包含公交名称和线路及票价。E)设计一个单位的公车,使用类和继承,统计均耗油量。F)设计一个教师系统,包含老师的属性和所带的课程.G)设计一个图书系统,并可以显示用户借的书。H)设计一个租车系统,并显示用户借的车。I)设计一个简单超市前台系统。感谢聆听