1、概述DataVisualizationandAnalysisBasis数据可视化与分析基础课程目标22024年11月10日具备基本的数据可视化与分析概念;熟练掌握Oracle DVD(Data Visualization for Desktop)应用软件,具备使用该软件对数据进行可视化图表制作及数据分析的能力;初步掌握IBM SPSS Modeler应用软件,具备使用该软件对数据进行挖掘分析能力;能够根据数据分析结果撰写数据分析报告。课程安排32024年11月10日p第1周 概述p第24周 Oracle DVD教学p第5周 Modeler教学p第6周 数据分析报告撰写p第7周 综合案例p第8周
2、 考核QQ学习群:783888572 QQ学习群名称:数据可视化与分析基础群文件中将共享课程中所使用的课件等学习资料。注:群中共享的文件仅限学习使用,不能用于其它用途。软件说明42024年11月10日Oracle DVD 12c 安装程序(64位)先安装Oracle Data Visualization Desktop-12.2.5.2.0.exe,完成后不启动。再安装Oracle Data Visualization Desktop-12.2.5.2.0 DVML-1.0.1-win.exe。【注意】如系统中已安装360等防护软件,可能会将Oracle DVD隔离,需要设置为信任文件。Ora
3、cle 可视化官网:https:/ SPSS Modeler 18 安装程序(64位):modeler 18.zip 1、首先安装modeler18程序,完成后不启动。2、继续安装premium版,完成后不启动。3、打开破解目录,将文件“lservrc”复制到安装文件夹内,并覆盖原文件。默认安装文件夹:C:Program FilesIBMSPSSModeler18.0binIBM SPSS Modeler官网:https:/ 1 1演讲的仪表、仪态等演讲的仪表、仪态等5 5 2 2演示文档演示文档要有封面、分析过程要有封面、分析过程和结论和结论5 53 3图表图表=10=10张,形式多样张,形
4、式多样20204 4数据分析数据分析条理性、合理性条理性、合理性20205 5数据挖据数据挖据10106 6报告撰写报告撰写结构合理、排版正确结构合理、排版正确=3000=3000字字20207 7现场制作现场制作202010010001大数据简介大数据简介2024年11月10日8大数据(big data),又称巨量资料,是指需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力来适应海量、高增长率和多样化的信息资产。大数据具有5V特征:5VVolume(大量)Velocity(高速)Variety(多样)Value(价值)Veracity(真实性)02数据可视化数据可视化102024年
5、11月10日数据可视化主要旨在借助于图形化手段,清晰有效地传达数据中蕴含的信息.本质是将复杂的数据用视觉展示的方式增强用户对数据的理解,以准确、形象、快速的传达方式凸显数据的含义。数据可视化综合应用计算机科学、图形学、可视化设计、心理学等多个领域的知识,运用符合人类视觉系统的方式为用户提供简洁、直观、形象、有趣、易于理解的数据展示,从而帮助用户了解数据,应用数据。数据可视化2024年11月10日11数据可视化软件:Oracle Data Visualization:Oracle推出的一款数据可视化产品,也是Oracle BI产品BIEE的一部分。它不仅支持本地部署,也可以在云端方便地访问,甚至
6、在个人的桌面端,用户也可以随时随地自如地分析来自个人或企业内部的数据。PowerBI:微软旗下的一款一体化的BI和分析平台。可视化能够直接从报告中创建,可以同整个组织的用户共享。除了大量的内置可视化样式外,也可以在AppSource社区不断创建新的可视化样式,或者如果你想自己编码,那么可以使用开发人员工具(Developer Tools)从头开始创建并与其他用户共享。它还包括一个自然语言界面,允许通过简单的搜索词建立不同复杂度的可视化。Tableau:Tableau公司开发的能够帮助用户查看并理解数据的商业智能软件,具有分析快速、简单易用、不限数据源、智能仪表板、自动更新、瞬时共享等特点。收费
7、版功能较多,有Tableau Desktop、Tableau Prep、Tableau Online、Tableau Server等多个版本。数据可视化工具:Echarts(http:/ Online、Plotly、Visualize Free等。数据挖掘03数据挖掘2024年11月10日13数据挖掘(Data mining),又译为资料探勘、数据采矿,一般是指从大量的数据中通过算法搜索隐藏于其中信息的过程。数据挖掘通常与计算机科学有关,并通过统计、在线分析处理、情报检索、机器学习、专家系统和模式识别等诸多方法来实现上述目标。数据挖掘常见的分析方法:分类、估计、预测、相关性分组或关联规则、聚类
8、复杂数据类型挖掘等。数据挖掘软件和工具:IBM SPSS Modeler、R、Oracle Data Mining、Weka、RapidMiner、KNIME等。数据分析04数据分析152024年11月10日数据分析的概念简单来说,对数据进行分析。较为专业的说法,指用适当的统计分析方法对收集来的大量数据进行分析,将它们加以汇总和理解并消化,以求最大化地开发数据的功能,发挥数据的作用。数据分析的目的把隐藏在大批看似杂乱无章的数据背后的信息集中和提炼出来,总结出所研究对象的内在规律,帮助管理者进行有效的判断和决策。数据分析的分类描述性数据分析:侧重于概括和表述数据的整体状况。探索性数据分析:侧重于
9、在数据中发现新的特征。验证性数据分析:侧重于验证已有假设的真伪。数据分析的作用现状分析:描述过去发生了什么。原因分析:描述现状为什么发生。预测分析:描述将来会发生什么。数据分析分为以下3大类:描述性数据分析、探索性数据分析、验证性数据分析。4.数据分析数据通过处理和分析,用图形,如柱形图、饼图、折线图等进行展现,能让人们一目了然地发现数据的本质以及作用。5.数据展现数据分析的最后一步,是整个数据分析过程的总结,是给决策者的一种参考,为决策者提供科学、严谨的决策依据。6.报告撰写明确分析目的和思路有助于帮助分析者提供清晰的指引方向,保证数据分析的有效进行。1.明确分析目的和思路为数据分析提供基础
10、,一般数据来源于4种渠道:权威机构、互联网、市场调查、企业数据库。2.数据收集对收集到的数据进行加工整理,形成适合数据分析的样式,其目的是从大量的、杂乱无章、难以理解的数据中,抽取并导出对解决问题有价值、有意义的数据,从而提高数据分析的效率。3.数据预处理162024年11月10日数据分析步骤数据分析方法论2024年11月10日17 数据分析方法论是从宏观角度出发,指导数据分析师进行一个完整的数据分析的过程,它是一个指南针,为数据分析师指明数据分析的正确方向。数据分析方法论是指数据分析的思路,是数据分析的前期规划,指导着后期数据分析工作的开展,数据分析方法论好比装修设计图,它为数据分析工作提供
11、了工作框架和指引,而数据分析方法好比装修的工具和技术,它为数据分析提供技术的方法和保障。数据分析方法论PEST分析182024年11月10日PEST分析:政治环境(Political)经济环境(Economic)社会环境(Social)技术环境(Technological)以中国互联网行业分析为例,采用PEST分析法整理分析思路,构建中国互联网行业分析框架。数据分析方法论5W2H分析(七何分析)192024年11月10日5W2H分析:Why、What、Who、When、Where、How、How much以用户购买行为分析为例,我们需要了解公司产品的用户购买行为是怎么样的数据分析方法论4P营销
12、理论202024年11月10日4P营销理论:产品(Product)价格(Price)渠道(Place)宣传(Promotion)公司业务分析数据分析方法论用户行为理论212024年11月10日用户行为是指用户为获取、使用物品或者服务所采取的各种活动,用户对产品首先需要有一个认知、熟悉的过程,然后试用,再决定是否继续消费使用,最后成为忠诚用户。可以利用用户行为理论,把用户在网站上的访问、浏览、搜索、注册、登录、订购等关键指标的逻辑关系进行梳理与分析。数据分析方法论逻辑树分析法222024年11月10日逻辑树又称问题树、演绎树或分解树等。将问题的所有子问题分层罗列,从最高层开始,并逐步向下扩展,逻
13、辑树主要是帮助数据分析师理清自己的思路,避免进行重复和无关的思考。针对公司利润增长缓慢的问题进行分析。数据分析法则帕累托法则232024年11月10日帕累托法则,也叫二八定律、关键少数法则、不平衡原则等,被广泛应用于社会学及企业管理学等。19世纪末20世纪初意大利经济学家帕累托发现,在任何一组东西中,最重要的只占其中一小部分,约20%,其余80%尽管是多数,却是次要的。帕累托法则242024年11月10日 总而言之,在原因和结果、投入和产出、努力和报酬之间存在的这种不平衡关系,可以分为两种不同类型:多数,它们只能造成少许的影响;少数,它们造成主要的、重大的影响。管理学:通常一个企业80%的利润
14、来自它20%的项目。经济学:20%的人手里掌握着80%的财富。心理学:20%的人身上集中了人类80%的智慧。日常生活中的“二八法则”:20%的人成功,80%的人不成功;20%的罪犯的罪行占所有犯罪行为的80%;20%的汽车狂人,引起80%的交通事故;20%的已婚者,占离婚人口的80%;世界上大约80%的资源,是由世界上20%的人口所消耗;20%的产品或20%的客户,为企业赚得约80%的销售额。数据分析法则2024年11月10日25四象限法则:指通过对两种维度的划分,运用坐标的方式表达出想要的价值,由价值直接转变为策略,从而进行一些项目的推动。四象限法是一种策略驱动的思维,广泛应用于战略分析,产
15、品分析,市场分析,客户管理,用户管理,商品管理等,其优点是直观,清晰,可以对数据进行人工的划分,划分结果可以直接应用于策略。通过运用四象限法则分析数据,可以快速的找到问题的共性原因,建立分组优化策略。同期群分析:指按时间维度对用户建立分组,观察分组用户的行为特征表现,其目的在于透过现象找到结果。以时间维度建立同期群,除按时间维度考虑,也可以对来源渠道等维度建立同期群。假设分析:在没有直观数据或者线索能分析的情况下,可以采用假设分析的方法进行综合考虑,以假设先行的方法进行推断,通过人工设置一个变量或者比率来进行反证。如:新产品的预期销量、未来某段时间内的景区热门度之类的。假设分析是一种启发思考驱
16、动的思维,它更多的是一种思考方法,即假设、验证、并加以判断。数据分析法则2024年11月10日26指数法:主要有线性加权、反比例、log三种方法,是一种目标驱动的思维,是将无法利用的数据加工成可利用的,从而进行分析。指数法的优点是目标驱动力强,直观,简洁,有效,对业务有一定的指导作用,一旦设立指数不易频繁变动。对比法:对比分析在基于相同数据标准下,由其他影响因素所导致的数据差异,而对比分析的目的在于找出差异后进一步挖掘差异背后的原因,从而找到优化的方法。漏斗分析:能够科学反映用户行为状态以及从起点到终点各阶段用户转化率情况的重要分析模型。其最常用的是转化率和流失率两个互补型指标。案例展示05啤
17、酒+尿布282024年11月10日 美国沃尔玛根据顾客的消费数据得到以下信息:男士被妻子派去买尿布的时候,他们就会顺手为自己买些啤酒。销售时,可在尿布的销售区域附近摆放些啤酒,这样既能更好地满足消费者需求,也使销量大幅增长。亚马逊的购物推荐292024年11月10日亚马逊会根据用户浏览和购买的产品信息,向用户推荐产品,为他们购买产品提供参考。亚马逊根据用户的喜好推荐合适的产品,以及与喜好有关联的货物,这样不仅能满足用户需求,还能增加销量。Google的流感预测302024年11月10日 MBAonline网站发布了一张题为“互联网的一天”的图表,表明人们在网上活动留下了大量的数据。2009年流
18、感爆发时,Google通过分析5000万条美国人最频繁检索的词条,例如“咳嗽和发烧应该用哪些药物”等,通过建模得到一个比官方数据更及时有效的检测机制,通过与美国政府巳有的原始数据进行比对,提前半个月预测出流感的爆发时间和传播途径。纸牌屋的创作312024年11月10日 制作纸牌屋的公司并不是一家影视公司,而是一家纯粹的信息科技公司,该公司拥有一个网络平台,每天用户会产生高达3000多万个行为、400万个用户评价、300万次搜索记录。根据用户的喜好制作的影视剧能带来庞大的观剧人群,也能在广告的投放上做到快速有效。大数据误区322024年11月10日芳华的观众比战狼2消费了更多的热饮?在某行业会议
19、,某航母级互联网影业的发言人说:“通过大数据挖掘,我们发现不同观众的相关卖品偏好。比如芳华的观众比战狼2消费了更多的热饮。这些都是以前我们所不知道的,也无法预测的。”当这一番言论出来之后,潜台词就是:中年人比年轻人消费了更多的热饮。可是,有人就提出了异议,战狼2是7月底夏天上映,芳华12月15日冬季上映,冬天热饮的需求谁都知道会比夏天的大的多得多。所以,数据分析的时候要考虑到多种影响因素,否则就会得到错误的结果。THANKYOUOracleDVD概述Datavisualizationandanalysisbasis数据可视化与分析基础教师:张丹珏 Email: 办公室:实验楼9103室甲骨文(
20、Oracle)简介甲骨文公司,全称甲骨文股份有限公司(甲骨文软件系统有限公司),是全球有名的企业级软件公司,总部位于美国加利福尼亚州。甲骨文公司向一百多个国家的用户提供数据库、工具和应用软件以及相关的咨询、培训和支持服务。全球数据库排行榜,Oracle排名第一,1989年正式进入中国市场。据统计,2015年中国数据库市场,Oracle市场占有份额高达56%,而在全球Oracle占有率为43.9%。OracleDV(OracleDataVisualization,数据可视化),是一款集数据整理、数据可视化、数据挖掘(机器学习)为一体的敏捷数据分析软件,于2015年正式发布。OracleDVD(O
21、racleDataVisualizationDesktop)是桌面版的Oracle数据可视化产品。文件格式为.dva。2024/11/10 周日 7:2235软件安装2024/11/10 周日 7:2236Oracle DVD 12c 安装程序(64位)先安装Oracle Data Visualization Desktop-12.2.5.2.0.exe,完成后不启动。再安装Oracle Data Visualization Desktop-12.2.5.2.0 DVML-1.0.1-win.exe。【注意】如系统中已安装360等防护软件,可能会将Oracle DVD隔离,需要设置为信任文件。
22、Oracle 可视化官网:https:/ 周日 7:2337导入数据生成数据集创建项目添加数据集添加画布分析制作图表汇总叙述主页2024/11/10 周日 7:2338打开OracleDVD会显示“主页”,其中包含了新增内容、项目、数据集、数据流等类别。鼠标单击“主页”右上角“页菜单”按钮中的“定制主页”,用户可以根据自己的喜好对主页中显示的类别进行自定义。鼠标单击“主页”左上角“导航器”按钮可以切换“项目”、“数据”等栏目。创建数据集2024/11/10 周日 7:2339OracleDVD支持多种数据文件,如Excel电子表格(.xls、.xlsx),文本文件(.TXT)等。使用“创建数据
23、集”的方式。OracleDVD支持多种数据库,如Oracle、SQLServer,Access等。使用“创建连接”的方式。创建项目2024/11/10 周日 7:2340【范例】(【范例】(P19/2-1P19/2-1)打开OracleDVD,创建项目,命名为“销售分析”,添加2个名为“全国订单明细”和“退单”的数据集。(数据源为“某公司销售数据.xlsx”中的“全国订单明细”和“退单”工作表)【步骤】【步骤】创建数据集“全国订单明细”。创建数据集“退单”。创建项目,绑定数据集。保存项目。项目的导入与导出2024/11/10 周日 7:2341用户可以通过项目的导出来备份项目。用户可以通过项目
24、的导入来重建项目。度量和属性2024/11/10 周日 7:2342OracleDVD会将数据集中的每个字段自动处理为“度量”和“属性”。度量:又称为定量数据,一般为数值数据。属性:又称为定性数据,一般为文本、日期或者地理数据等。OracleDVD提供了很多预设的聚合计算(聚合表示多个值聚集为一个数值),例如,总和、平均值、最大值、最小值、计数、相异值计数等。OracleDVD不会对属性字段进行聚合,如果要对该字段的值进行聚合,那么该字段必须转换为度量。将度量字段添加到画布,OracleDVD将对该字段进行求和计算。在“属性”窗格中可修改聚合方式。度量和属性2024/11/10 周日 7:23
25、43【范例】【范例】(P19/2-1 P19/2-1 有修改)有修改)OracleDVD将“订单号”字段自动标识为度量(数字类型),我们需要将该字段转换为属性(文本类型),两个数据集按照订单号进行整合。【步骤】【步骤】“准备”界面中使用“转换为文本”功能进行转换。应用脚本。两个数据集整合。保存。数据可视化工作界面2024/11/10 周日 7:2344OracleDVD提供了数据准备、可视化、叙述操作界面,可以通过右上角操作界面切换按钮进行切换。数据准备界面:用于按列进行的字段数据转换、扩充以及数据集连接等操作。数据可视化界面:用于数据的可视化操作。数据叙述界面:用于分析汇总。数据可视化工作界
26、面2024/11/10 周日 7:2345一旦将数据添加至可视化画布中,就会出现“语法”窗格。用户可以通过“语法”窗格对当前选中的可视化图表进行自定义设计。例如,可视化图表类型、X轴、Y轴、颜色、大小、筛选器等设置。创建画布2024/11/10 周日 7:2346【范例】(【范例】(P36/2-6P36/2-6,有修改),有修改)在“销售分析”项目中,将第一个画布重命名为“销售分析”,并设置画布宽度900px,高度500px。【步骤】【步骤】重命名画布。设置画布属性。创建可视化2024/11/10 周日 7:2347【范例】(【范例】(P37/2-7P37/2-7、2-82-8、2-92-9)
27、在“销售分析”画布的左侧,显示销售额总和以及利润额总和,销售额总和显示在上方,利润额总和显示在下方。在“销售分析”画布的右侧,显示各产品子类别的利润额情况。【步骤】【步骤】双击“销售额”字段。将“利润额”字段拖曳至销售额总和的下方。将“产品子类别”和“利润额”字段拖曳至画布右侧。更改可视化类型为水平条形图。创建可视化2024/11/10 周日 7:2348【范例】(【范例】(P41/2-10P41/2-10)设置画布右侧可视化图表标题为“各产品子类别的利润额”,X轴刻度取值范围-200000400000,显示数据标签,标签位置为“上”,数字格式为“货币”,“CNY/CN”格式,启用数值缩写,适
28、当调整可视化图表宽度,以显示所有数据。【步骤】【步骤】修改标题。“属性”窗格中“轴”选项卡,设置“值轴”属性。“属性”窗格中“值”选项卡,设置利润额的数据标签显示方式和数字格式。适当调整可视化图表宽度。创建可视化2024/11/10 周日 7:2449【范例】(【范例】(P43/2-11P43/2-11)设置画布右侧可视化图表的颜色依据为利润额总和,利润额总和大于0时,用绿色显示,小于0,用红色显示。【步骤】【步骤】拖拽“利润额”字段到“语法”窗格的颜色区域。点击颜色区域三角形下拉菜单,选择“管理分配”菜单项。编辑“利润额”的颜色。创建可视化2024/11/10 周日 7:2450【范例】(【
29、范例】(P45/2-12P45/2-12)设置画布右侧可视化图表的大小依据为运输成本总和,设置图例在右侧显示。【步骤】【步骤】拖拽“运输成本”字段到“语法”窗格的大小区域。“属性”窗格中“常规”选项卡,设置图例显示位置为“右”。“属性”窗格“常规”选项卡中修改。排序与筛选2024/11/10 周日 7:2451【范例】(【范例】(P46/2-13P46/2-13有修改)有修改)设置画布右侧可视化图表,按各产品子类别的利润额总和降序排序,设置该画布仅显示2009年度利润额情况,右侧可视化图表仅显示利润额总和小于100000的数据,将画布右侧可视化图表设置为主图表,使该画布中三个图表仅显示利润额总
30、和为负的产品子类别的相关数据。【步骤】【步骤】利润额降序排序。鼠标右键单击可视化图表,在弹出的快捷菜单中选择“排序/产品子类别,按利润额由高到低”菜单项。添加筛选器。将“订单日期”字段拖曳至画布上方“单击此处或拖动数据以添加筛选器”区域,设置时间区域。设置主图表。鼠标右键单击右侧可视化图表,在弹出的右键菜单中选择“用作筛选器”菜单项。导出画布2024/11/10 周日 7:2452【范例】(【范例】(P49/2-15P49/2-15)将画布导出为PDF格式(销售分析.pdf),将右侧可视化图表导出为图像格式(各产品子类别的利润额.png)。【步骤【步骤】鼠标单击“销售分析”画布界面左上角“共享
31、”按钮,选择“文件”选项,在弹出的对话框中进行导出名称和格式等设置。设置保存的路径。THANKYOUOracleDVD基本图表Datavisualizationandanalysisbasis数据可视化与分析基础教师:张丹珏 Email: 办公室:实验楼9103室图表条形图2024/11/10 周日 7:2455条形图是比较常用的一种图表,常用来分析每类数据“有多少”的问题。条形图的X轴表示维度,Y轴表示数值。条形图横置时称为水平条形图。应用场景:适合多个分类的数据对比。条形图堆叠条形图100%堆叠条形图水平条形图图表条形图2024/11/10 周日 7:2456【范例】(【范例】(P63/3
32、-5P63/3-5)新建画布命名为“产品子类别的订单数量分析”,分析3大产品类别中各产品子类别的订单量情况。【步骤【步骤】条形图:格状图列为“产品类别”,值(Y轴)为“订单数量”,类别(X轴)为“产品子类别”,分析“产品包箱”为“巨型木箱”和“巨型纸箱”的订单数量情况,按订单数量的降序排列,修改图表标题为“条形图”。100%堆叠条形图:分析3大产品类别中各产品子类别的订单数量的占比情况,修改图表标题为“100%堆叠条形图”,居中显示数据标签。图表条形图2024/11/10 周日 7:2457【范例】(【范例】(P67/3-6P67/3-6)新建画布命名为“运输成本分布”,分析运输成本的分布情况
33、。【步骤【步骤】根据运输成本的多少,利用“收集器”分为6个组。对“运输成本”字段进行聚合(计数运算)。制作条形图。修改图表标题为“运输成本分布”。按“运输成本”降序排列。图表线形图2024/11/10 周日 7:2458线形图也是较为常用的一种图表,通常用来显示数据随时间变化的趋势。应用场景:通常用来显示在相等时间间隔下的或有序类别的数据变化趋势。局限性:无序的类别无法适用。图表线形图2024/11/10 周日 7:2459【范例】(【范例】(P73/3-7P73/3-7有修改)有修改)新建画布命名为“线形图”,分析3个产品类别每月的利润额总额的情况。【步骤【步骤】制作线形图。值(Y轴)为“利
34、润额”,类别(X轴)为“订单日期”,颜色依据为“产品类别”。“订单日期”的显示方式设置为“第几月”。修改图表标题为“累计月份利润额”。显示数据点。设置图例显示在右侧。设置X轴无标题。设置数据标签显示在上方。设置颜色为“光谱”调色板,“办公用品”类别颜色为蓝色(#160fad)、“家具产品”类别颜色为橙色(#f69000)、“技术用品”类别颜色为红色(#f30900)。图表面积图2024/11/10 周日 7:2460面积图又称区域图,用面积表示随时间或类别而变化的数据情况,同时也能体现总数据量的变化情况。面积图与线性图相似,线形图突出各数据量的对比,面积图突出总量的变化。图表面积图2024/1
35、1/10 周日 7:2461【范例】(【范例】(P77/3-8P77/3-8有修改)有修改)新建画布命名为“各订单等级订单量”,分析不同订单等级每月的订单量情况。【步骤【步骤】制作面积图。“订单日期”的显示方式设置为“第几月”。修改图表标题为“各订单等级订单量”。设置数据标签显示在上方。图例显示在图表上方。不显示X轴标题。图表饼图2024/11/10 周日 7:2462饼图主要用于显示一个数据系列中各类别数据的多少与总和的比例。扇形表示数据占比大小,面积越大占比越大。应用场景:用来显示一个数据系列中各类别的所占比例。局限性:不能体现出数据中的负值数据。图表饼图2024/11/10 周日 7:2
36、463【范例】(【范例】(P80/3-9P80/3-9)新建画布命名为“饼图”,分析3个产品类别每年订单量的占比情况。【步骤【步骤】制作饼图。“订单日期”的显示方式设置为“年”。设置格状图列为“订单日期”。修改图表标题为“各产品类别订单数量占比”。图例显示在图表上方。修改图表类型为“环形”。图表旭日图2024/11/10 周日 7:2564旭日图相当于多个饼图的组合,不仅可以体现多层结构数据的各类别数据的大小与总和的比例关系,还能展示数据之间的层次关系。在旭日图中,一个圆环表示一个层级的数据,圆环中的各段代表数据在该层级的占比,最内层圆环的数据层级最高,越往外,层级越低,且数据分类越细。图表旭
37、日图2024/11/10 周日 7:2565【范例】(【范例】(P84/3-10P84/3-10)新建画布命名为“旭日图”,分析3个产品类别中各个产品子类别的订单量的占比情况。【步骤【步骤】制作旭日图。修改图表标题为“订单数量占比-多层结构”。数据标签显示方式为“百分比”和“标签”,按组显示百分比。图表雷达线2024/11/10 周日 7:2566雷达线是显示多个变量的常用图示方法,也称为雷达图,蜘蛛图,星图,不规则多边形,极坐标图或Kiviat图等,是以从同一点开始的轴上表示的多个数据量的二维图表形式,它相当于平行坐标图的轴径向排列。应用场景:显示或对比多变量的数值时十分有效。2003年我国
38、城乡居民家庭人均消费支出图表雷达线2024/11/10 周日 7:2567【范例】(【范例】(P86/3-11P86/3-11有修改)有修改)新建画布命名为“雷达线”,分析各产品子类别的销售额总额和利润额总额的对比情况。【步骤【步骤】制作雷达线。修改图表标题为“销售额与利润额”。修改线形图类型为“曲线”。图表网格热图2024/11/10 周日 7:2568网格热图是将数据以颜色块的形式来表示,可以将纷繁的数据交叉表转变为生动、直观的可视图。应用场景:适合用于区分和对比两组或多组分类数据。局限性:虽然通过颜色可以非常容易了解到数据的整体对比情况,但不适合显示数据中的某些统计信息,如最大、最小值等
39、。图表网格热图2024/11/10 周日 7:2569【范例】(【范例】(P88/3-12P88/3-12)新建画布命名为“网格热图”,分析每个省份每月的利润额总额的情况。【步骤【步骤】制作网格热图。“订单日期”的显示方式设置为“第几月”。修改图表标题为“各省利润额(月份)”。设置每月利润额大于10000的色块为红色,否则为蓝色。图表树状图2024/11/10 周日 7:2570树状图,又称为矩形式树状结构图(Treemap),它直观地以面积表示数据的多少。应用场景:适合用于展示各类别数据对比情况。局限性:当分类占比太小会变得很难排版。图表树状图2024/11/10 周日 7:2571【范例】
40、(【范例】(P91/3-13P91/3-13)新建画布命名为“树状图”,分析各产品子类别的订单量情况。【步骤【步骤】制作树状图。修改图表标题为“各产品子类别的订单数量”。不显示图例。数据标签显示方式为“百分比”。设置颜色依据为“产品子类别”。图表标记云2024/11/10 周日 7:2572标记云,又称词云图,文字云,主要用字体大小表示数据的多少,一个词显示越大表示数据量越大。应用场景:一般与文本挖掘结合使用。局限性:不适用于数据太少或数据区分度不大的文本。图表标记云2024/11/10 周日 7:2573【范例】(【范例】(P93/3-14P93/3-14)新建画布命名为“标记云”,分析各产
41、品子类别的利润额总额情况。【步骤【步骤】制作标记云。设置图表无标题,无图例。设置颜色依据为“产品子类别”。图表散点图2024/11/10 周日 7:2574散点图也叫X-Y图,用两组数据构成多个坐标点,考察坐标点的分布模式。应用场景:适合考察两组数据之间是否存在某种关联,散点图中包含的数据越多,分析结果就越准确。局限性:不适合数据量少的分析。不相关-数据点排列无序负相关-数据点以右下的趋势下降正相关-数据点以右上的趋势上升图表散点图2024/11/10 周日 7:2675【范例】(【范例】(P97/3-15P97/3-15)新建画布命名为“散点图”,分析各产品子类别的“销售额”总额和“利润额”
42、总额的关系。【步骤【步骤】制作散点图。修改图表标题为“销售额与利润额”。设置颜色依据为“产品类别”。添加趋势线。图表组合图2024/11/10 周日 7:2676组合图:又称为双轴图,将两个图表组合起来对比数据,比如在柱状图上叠加折线图等。应用场景:适合对比两组数据。局限性:不适合大于两组的数据对比。图表组合图2024/11/10 周日 7:2677【范例】(【范例】(P102/3-17P102/3-17)新建画布命名为“利润额与运输成本”,分析各省份的利润额总额与运输成本总额的情况。【步骤【步骤】制作组合图。设置“运输成本”总额使用Y2轴显示。“利润额”使用折线图,运输成本使用面积图。修改图
43、表标题为“组合图”。设置轴值刻度为0300K。设置次轴值刻度030K。设置“利润额”总额的颜色为蓝色,“运输成本”总额的颜色为绿色。图表瀑布图2024/11/10 周日 7:2678瀑布图可以描述数据从初始值受到一系列的正值或者负值影响后得到结果的整个过程。应用场景:适合描述数据的演变过程。图表瀑布图2024/11/10 周日 7:2679【范例】(【范例】(P106/3-18P106/3-18)新建画布命名为“订单数量变化”,分析每年各个季度的订单量变化情况。【步骤【步骤】制作瀑布图。“订单日期”的显示方式设置为“季度”。修改图表标题为“瀑布图”。图表箱线图2024/11/10 周日 7:2
44、680箱线图又称为盒须图、盒式图或箱形图,是一种用作显示一组数据分散情况的统计图,因形状如箱子而得名。应用场景:适用于反映数据的分布特征,箱线图中的箱体表示数据的集中范围,箱体越短表示数据分布越集中,反之,数据分布越离散。最小值Min下四分位数QL最大值Max中位数Me上四分位数QU图表箱线图2024/11/10 周日 7:2681【范例】(【范例】(P109/3-19P109/3-19)新建画布命名为“箱线图”,分析各季度各产品子类别的利润额总额分布情况。【步骤【步骤】制作水平箱线图。设置详细信息依据为“产品子类别”。“订单日期”的显示方式设置为“第几季度”。按“订单日期”从早到晚排序。修改
45、图表标题为“各产品子类别利润分布”。图表地图2024/11/10 周日 7:2682地图主要用于分析和展示与地理位置相关的数据,地理数据包括国家、省、市等。应用场景:适用于地理位置数据的分析。局限性:无地理位置数据不适合使用。图表地图2024/11/10 周日 7:2683【范例】(【范例】(P111/3-20P111/3-20)新建画布命名为“地图”,分析各个城市的销售额总额的情况,突出显示北京、上海和深圳的销售额总额情况。【步骤【步骤】设置“城市”为地理角色,创建地图。添加“销售额”总额数据。修改图表标题为“地图”。设置背景地图为“Oracle地图”,设置层类型为“点图”,透明度为“20”
46、。筛选城市:北京、上海和深圳。可添加百度地图。控制台栏目中添加地图背景和地图层。创建故事(叙述)2024/11/10 周日 7:2684创建故事,也称之为叙述,可以将多个画布的分析结果汇总到一起,用于展示整个数据分析过程。【范例】(【范例】(P113P113)创建一个叙述,将所有画布添加至叙述,导出所有故事页,命名为“故事.pptx”。导出项目,命名为“销售分析.dva”,需包含数据,无需密码。上交作业:将两个文件打包上交,压缩包命名为自己的姓名学号,如:F123456张三.rar。THANKYOU数 据 挖 掘 基 础张丹珏 DataVisualizationandAnalysisBasis
47、数据可视化与分析基础87数据挖掘数据挖掘(Datamining)又译为资料探勘、数据采矿。数据挖掘一般是指从大量的数据中通过算法寻找隐藏于其中的信息的过程。数据挖掘通常与计算机科学有关,并通过统计、分析处理、情报检索、机器学习、专家系统(依靠过去的经验法则)和模式识别等诸多算法来实现上述目标。88数据挖掘数据挖掘的分析方法:分类(Classification)估计(Estimation)预测(Prediction)相关性分组或关联规则(Affinitygroupingorassociationrules)聚类(Clustering)复杂数据类型挖掘(Text,Web,图形图像,视频,音频等)I
48、BMSPSSModeler18.089IBMSPSSModeler是IBM开发的一款面向商业用户的数据挖掘工具,该软件拥有良好的用户界面,简单易用,且包含多种挖掘算法,可快速建立数据模型,挖掘结果直观易懂,可应用于商业活动,改进决策过程,故在数据挖掘领域具有较高的口碑。90IBMSPSSModeler18.0使用Modeler进行数据挖掘主要是构建数据流。其步骤如下:第一步:将节点添加到编辑区第二步:连接节点形成数据流第三步:运行数据流91基本概念节点Modeler提供多种类型的节点。源节点:将数据导入到流中,它位于节点工具箱的“源”选项卡中。过程节点:在单个数据记录或字段上执行操作,它位于选
49、项板的“记录选项”和“字段选项”选项卡中。输出节点:为数据、图表和模型结果生成各种输出,并包含在节点选项板的“图形”、“输出”和“导出”选项卡中。建模节点:使用统计算法创建模型块,它位于节点选项板的“建模”选项卡选项卡中。92基本概念节点添加节点:双击节点,或者将节点拖至编辑区。编辑节点:双击已添加的节点,或者单击鼠标右键并从快捷菜单中选择“编辑”,会显示编辑对话框,在该对话框中可以设置与当前节点有关的相应属性。删除节点:单击该节点并按Delete键,或者单击鼠标右键并从快捷菜单中选择“删除”。93基本概念数据流连接节点可以形成数据流,节点之间的连接指示数据从一项操作流向下一项操作的方向。连接
50、节点形成数据流的方法有以下几种:通过双击添加节点并自动连接:这是连接节点的最简单方法,此方法会自动将新添加的节点连接到编辑区中选定的节点。使用鼠标中键连接节点:在编辑区中,可以使用鼠标中键单击某个节点并将其拖到另一个节点。(如果鼠标没有中键,可以通过按住Alt键的同时使用鼠标从一个节点拖到另一个节点)手动连接节点:鼠标右键单击节点,在弹出的快捷菜单中选择“连接”项,此时,开始节点和光标处将同时显示连接图标,然后鼠标左键单击第二个节点,就可连接这两个节点。94运行运行数据流的方法有以下几种:在“工具”菜单中,单击运行。在工具栏上单击“运行当前流”按钮,可以运行整个数据流,也可以单击“运行选定内容