1、概述DataVisualizationandAnalysisBasis数据可视化与分析基础教师:张丹珏 Email: Add:实验楼9103课程简介22024年11月10日上海杉达学院 信息技术基础教学部随着大数据时代的来临,大数据分析也应运而生,本课程使用Oracle和Modeler软件作为数据可视化与分析工具,该两款软件是商业智能与数据分析软件,能够满足企业与科研绝大多数的分析需求,相比于专业软件,它入门简单且功能强大,通过拖、拉、点击等操作即可完成,无需太多的专业背景(无需编程),每个人都可以轻松掌握,真正实现了“亲自上阵”,“所见即所得”。课程内容主要包含数据可视化与分析概述、数据整理
2、与连接、可视化图表、数据计算、分类决策、关联分析和数据报告撰写等。针对我校学生的特点,本课程适合非计算机专业的学生学习,对于以后的工作和学习都有很好的实用性。课程目标32024年11月10日上海杉达学院 信息技术基础教学部具备基本的数据可视化与分析概念;熟练掌握Oracle AD(Oracle Analytics Desktop)应用软件,具备使用该软件对数据进行可视化图表制作及数据分析的能力;初步掌握IBM SPSS Modeler应用软件,具备使用该软件对数据进行挖掘分析能力;能够根据数据分析结果撰写数据分析报告。课程安排42024年11月10日上海杉达学院 信息技术基础教学部p第1周 概
3、述p第2、3周 数据可视化初步p第4、5周 数据图表制作p第6周 数据公式与函数p第7、8周 数据可视化案例智慧树网址:https:/ 数据挖掘p第11、12周 数据分析报告p第13、14周 数据分析案例p第15周 数据库基本操作p第16周 课程考核软件说明52024年11月10日上海杉达学院 信息技术基础教学部Oracle可视化软件安装Windows系统:运行Oracle_Analytics_Desktop-5.5.0.exeMac系统:运行Oracle_Analytics_Desktop-5.5.0.pkg 【注意】如系统中已安装360等防护软件,可能会将Oracle AD隔离,需要设置为
4、信任文件。Oracle 可视化官网:https:/ 信息技术基础教学部IBM SPSS Modeler安装程序(64位):modeler 18.zip1、解压modeler 18.zip。2、运行SPSS_Modeler_18中的setup.exe应用程序,完成后不启动。3、运行SPSS_Modeler_18_Premium中的setup.exe应用程序,完成后不启动。4、打开SPSS_Modeler_18 破解目录,将文件“lservrc”复制到安装文件夹内,并覆盖原文件。默认安装文件夹:C:Program FilesIBMSPSSModeler18.0binIBM SPSS Modeler
5、主页:https:/ 信息技术基础教学部p总评成绩=平时成绩(40%)+期末考核成绩(60%)p平时成绩:包含考勤、上课表现、课堂练习等。期末考核:包含数据分析报告、演讲等。p每组3-4人,每组5分钟演讲+5分钟现场制作。p补考以考试形式进行:现场制作4张图表和1个数据挖据流程。编号编号项目项目要求要求分值分值 1 1演讲的仪表、仪态等演讲的仪表、仪态等5 5 2 2演示文档演示文档要有封面、分析过程和要有封面、分析过程和结论结论5 53 3可视化图表可视化图表人均人均=5=5张,形式多样张,形式多样20204 4数据挖据数据挖据每组至少一个数据建模每组至少一个数据建模10105 5数据分析数
6、据分析条理性、合理性条理性、合理性20206 6报告撰写报告撰写结构合理、排版正确结构合理、排版正确人均字数人均字数=1000=1000字字20207 7现场制作现场制作2020100100大数据简介大数据简介2024年11月10日上海杉达学院 信息技术基础教学部9大数据(big data),又称巨量资料,是指需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力来适应海量、高增长率和多样化的信息资产。大数据具有4V特征:4VVolume(大量)Velocity(高速)Variety(多样)Value(价值)50 x35 ZB20202010全球80%数据为非结构性超过300亿RFID
7、感测装置价值密度的高低与数据总量的大小成反比。如何通过强大的机器算法迅速地完成数据的价值“提纯”是目前大数据背景下亟待解决的难题。数据可视化数据可视化112024年11月10日上海杉达学院 信息技术基础教学部数据可视化主要旨在借助于图形化手段,清晰有效地传达数据中蕴含的信息.本质是将复杂的数据用视觉展示的方式增强用户对数据的理解,以准确、形象、快速的传达方式凸显数据的含义。数据可视化综合应用计算机科学、图形学、可视化设计、心理学等多个领域的知识,运用符合人类视觉系统的方式为用户提供简洁、直观、形象、有趣、易于理解的数据展示,从而帮助用户了解数据,应用数据。数据可视化2024年11月10日上海杉
8、达学院 信息技术基础教学部12数据可视化软件:Oracle AD:Oracle推出的一款数据可视化产品,也是Oracle BI产品BIEE的一部分。它不仅支持本地部署,也可以在云端方便地访问,甚至在个人的桌面端,用户也可以随时随地自如地分析来自个人或企业内部的数据。PowerBI:微软旗下的一款一体化的BI和分析平台。可视化能够直接从报告中创建,可以同整个组织的用户共享。除了大量的内置可视化样式外,也可以在AppSource社区不断创建新的可视化样式,或者如果你想自己编码,那么可以使用开发人员工具(Developer Tools)从头开始创建并与其他用户共享。它还包括一个自然语言界面,允许通过
9、简单的搜索词建立不同复杂度的可视化。Tableau:Tableau公司开发的能够帮助用户查看并理解数据的商业智能软件,具有分析快速、简单易用、不限数据源、智能仪表板、自动更新、瞬时共享等特点。收费版功能较多,有Tableau Desktop、Tableau Prep、Tableau Online、Tableau Server等多个版本。数据可视化工具:Echarts(https:/echarts.apache.org/zh/index.html)、GAPMINDER、D3、RAWGraphs、Datawrapper、Tableau Online、Plotly、Visualize Free等。数
10、据挖掘数据挖掘2024年11月10日上海杉达学院 信息技术基础教学部14数据挖掘(Data mining),又译为资料探勘、数据采矿,一般是指从大量的数据中通过算法搜索隐藏于其中信息的过程。数据挖掘通常与计算机科学有关,并通过统计、在线分析处理、情报检索、机器学习、专家系统和模式识别等诸多方法来实现上述目标。数据挖掘常见的分析方法:分类、估计、预测、相关性分组或关联规则、聚类复杂数据类型挖掘等。数据挖掘软件和工具:IBM SPSS Modeler、R、Oracle Data Mining、Weka、RapidMiner、KNIME等。数据分析数据分析162024年11月10日上海杉达学院 信息
11、技术基础教学部数据分析的概念简单来说,对数据进行分析。较为专业的说法,指用适当的统计分析方法对收集来的大量数据进行分析,将它们加以汇总和理解并消化,以求最大化地开发数据的功能,发挥数据的作用。数据分析的目的把隐藏在大批看似杂乱无章的数据背后的信息集中和提炼出来,总结出所研究对象的内在规律,帮助管理者进行有效的判断和决策。数据分析的分类描述性数据分析:侧重于概括和表述数据的整体状况。探索性数据分析:侧重于在数据中发现新的特征。验证性数据分析:侧重于验证已有假设的真伪。数据分析的作用现状分析:描述过去发生了什么。原因分析:描述现状为什么发生。预测分析:描述将来会发生什么。数据分析分为以下3大类:描
12、述性数据分析、探索性数据分析、验证性数据分析。4.数据分析数据通过处理和分析,用图形,如柱形图、饼图、折线图等进行展现,能让人们一目了然地发现数据的本质以及作用。5.数据展现数据分析的最后一步,是整个数据分析过程的总结,是给决策者的一种参考,为决策者提供科学、严谨的决策依据。6.报告撰写明确分析目的和思路有助于帮助分析者提供清晰的指引方向,保证数据分析的有效进行。1.明确分析目的和思路为数据分析提供基础,一般数据来源于4种渠道:权威机构、互联网、市场调查、企业数据库。2.数据收集对收集到的数据进行加工整理,形成适合数据分析的样式,其目的是从大量的、杂乱无章、难以理解的数据中,抽取并导出对解决问
13、题有价值、有意义的数据,从而提高数据分析的效率。3.数据预处理172024年11月10日上海杉达学院 信息技术基础教学部数据分析步骤数据分析方法数据分析方法论2024年11月10日上海杉达学院 信息技术基础教学部19 数据分析方法论是从宏观角度出发,指导数据分析师进行一个完整的数据分析的过程,它是一个指南针,为数据分析师指明数据分析的正确方向。数据分析方法论是指数据分析的思路,是数据分析的前期规划,指导着后期数据分析工作的开展,数据分析方法论好比装修设计图,它为数据分析工作提供了工作框架和指引,而数据分析方法好比装修的工具和技术,它为数据分析提供技术的方法和保障。数据分析方法论PEST分析20
14、2024年11月10日上海杉达学院 信息技术基础教学部PEST分析:政治环境(Political)经济环境(Economic)社会环境(Social)技术环境(Technological)以中国互联网行业分析为例,采用PEST分析法整理分析思路,构建中国互联网行业分析框架。数据分析方法论5W2H分析(七何分析)212024年11月10日上海杉达学院 信息技术基础教学部5W2H分析:Why、What、Who、When、Where、How、How much以用户购买行为分析为例,我们需要了解公司产品的用户购买行为是怎么样的数据分析方法论4P营销理论222024年11月10日上海杉达学院 信息技术基
15、础教学部4P营销理论:产品(Product)价格(Price)渠道(Place)宣传(Promotion)公司业务分析数据分析方法论用户行为理论232024年11月10日上海杉达学院 信息技术基础教学部用户行为是指用户为获取、使用物品或者服务所采取的各种活动,用户对产品首先需要有一个认知、熟悉的过程,然后试用,再决定是否继续消费使用,最后成为忠诚用户。可以利用用户行为理论,把用户在网站上的访问、浏览、搜索、注册、登录、订购等关键指标的逻辑关系进行梳理与分析。数据分析方法论逻辑树分析法242024年11月10日上海杉达学院 信息技术基础教学部逻辑树又称问题树、演绎树或分解树等。将问题的所有子问题
16、分层罗列,从最高层开始,并逐步向下扩展,逻辑树主要是帮助数据分析师理清自己的思路,避免进行重复和无关的思考。针对公司利润增长缓慢的问题进行分析。常见数据分析法则数据分析法则帕累托法则262024年11月10日上海杉达学院 信息技术基础教学部帕累托法则,也叫二八定律、关键少数法则、不平衡原则等,被广泛应用于社会学及企业管理学等。19世纪末20世纪初意大利经济学家帕累托发现,在任何一组东西中,最重要的只占其中一小部分,约20%,其余80%尽管是多数,却是次要的。帕累托法则272024年11月10日上海杉达学院 信息技术基础教学部 总而言之,在原因和结果、投入和产出、努力和报酬之间存在的这种不平衡关
17、系,可以分为两种不同类型:多数,它们只能造成少许的影响;少数,它们造成主要的、重大的影响。管理学:通常一个企业80%的利润来自它20%的项目。经济学:20%的人手里掌握着80%的财富。心理学:20%的人身上集中了人类80%的智慧。日常生活中的“二八法则”:20%的人成功,80%的人不成功;20%的罪犯的罪行占所有犯罪行为的80%;20%的汽车狂人,引起80%的交通事故;20%的已婚者,占离婚人口的80%;世界上大约80%的资源,是由世界上20%的人口所消耗;20%的产品或20%的客户,为企业赚得约80%的销售额。数据分析法则2024年11月10日上海杉达学院 信息技术基础教学部28四象限法则:
18、指通过对两种维度的划分,运用坐标的方式表达出想要的价值,由价值直接转变为策略,从而进行一些项目的推动。四象限法是一种策略驱动的思维,广泛应用于战略分析,产品分析,市场分析,客户管理,用户管理,商品管理等,其优点是直观,清晰,可以对数据进行人工的划分,划分结果可以直接应用于策略。通过运用四象限法则分析数据,可以快速的找到问题的共性原因,建立分组优化策略。同期群分析:指按时间维度对用户建立分组,观察分组用户的行为特征表现,其目的在于透过现象找到结果。以时间维度建立同期群,除按时间维度考虑,也可以对来源渠道等维度建立同期群。假设分析:在没有直观数据或者线索能分析的情况下,可以采用假设分析的方法进行综
19、合考虑,以假设先行的方法进行推断,通过人工设置一个变量或者比率来进行反证。如:新产品的预期销量、未来某段时间内的景区热门度之类的。假设分析是一种启发思考驱动的思维,它更多的是一种思考方法,即假设、验证、并加以判断。数据分析法则2024年11月10日上海杉达学院 信息技术基础教学部29指数法:主要有线性加权、反比例、log三种方法,是一种目标驱动的思维,是将无法利用的数据加工成可利用的,从而进行分析。指数法的优点是目标驱动力强,直观,简洁,有效,对业务有一定的指导作用,一旦设立指数不易频繁变动。对比法:对比分析在基于相同数据标准下,由其他影响因素所导致的数据差异,而对比分析的目的在于找出差异后进
20、一步挖掘差异背后的原因,从而找到优化的方法。漏斗分析:能够科学反映用户行为状态以及从起点到终点各阶段用户转化率情况的重要分析模型。其最常用的是转化率和流失率两个互补型指标。案例展示啤酒+尿布312024年11月10日上海杉达学院 信息技术基础教学部 美国沃尔玛根据顾客的消费数据得到以下信息:男士被妻子派去买尿布的时候,他们就会顺手为自己买些啤酒。销售时,可在尿布的销售区域附近摆放些啤酒,这样既能更好地满足消费者需求,也使销量大幅增长。亚马逊的购物推荐322024年11月10日上海杉达学院 信息技术基础教学部亚马逊会根据用户浏览和购买的产品信息,向用户推荐产品,为他们购买产品提供参考。亚马逊根据
21、用户的喜好推荐合适的产品,以及与喜好有关联的货物,这样不仅能满足用户需求,还能增加销量。Google的流感预测332024年11月10日上海杉达学院 信息技术基础教学部 MBAonline网站发布了一张题为“互联网的一天”的图表,表明人们在网上活动留下了大量的数据。2009年流感爆发时,Google通过分析5000万条美国人最频繁检索的词条,例如“咳嗽和发烧应该用哪些药物”等,通过建模得到一个比官方数据更及时有效的检测机制,通过与美国政府巳有的原始数据进行比对,提前半个月预测出流感的爆发时间和传播途径。纸牌屋的创作342024年11月10日上海杉达学院 信息技术基础教学部 制作纸牌屋的公司并不
22、是一家影视公司,而是一家纯粹的信息科技公司,该公司拥有一个网络平台,每天用户会产生高达3000多万个行为、400万个用户评价、300万次搜索记录。根据用户的喜好制作的影视剧能带来庞大的观剧人群,也能在广告的投放上做到快速有效。大数据误区352024年11月10日上海杉达学院 信息技术基础教学部芳华的观众比战狼2消费了更多的热饮?在某行业会议,某航母级互联网影业的发言人说:“通过大数据挖掘,我们发现不同观众的相关卖品偏好。比如芳华的观众比战狼2消费了更多的热饮。这些都是以前我们所不知道的,也无法预测的。”当这一番言论出来之后,潜台词就是:中年人比年轻人消费了更多的热饮。可是,有人就提出了异议,战
23、狼2是7月底夏天上映,芳华12月15日冬季上映,冬天热饮的需求谁都知道会比夏天的大的多得多。所以,数据分析的时候要考虑到多种影响因素,否则就会得到错误的结果。Oracle可视化概述Datavisualizationandanalysisbasis数据可视化与分析基础甲骨文(Oracle)简介2024/11/10 周日 7:50上海杉达学院 信息技术基础教学部38甲骨文公司,全称甲骨文股份有限公司(甲骨文软件系统有限公司),是全球有名的企业级软件公司,总部位于美国加利福尼亚州。甲骨文公司向一百多个国家的用户提供数据库、工具和应用软件以及相关的咨询、培训和支持服务。全球数据库排行榜,Oracle排
24、名第一,1989年正式进入中国市场。据统计,2015年中国数据库市场,Oracle市场占有份额高达56%,而在全球Oracle占有率为43.9%。Oracle数据可视化应用软件,是一款集数据整理、数据可视化、数据挖掘(机器学习)为一体的敏捷数据分析软件,于2015年正式发布。Oracle项目保存在C盘,如需备份可将项目导出到D盘,导出的文件格式为.dva。Oracle可视化工作流程2024/11/10 周日 7:50上海杉达学院 信息技术基础教学部39创建项目添加数据添加画布分析制作图表汇总叙述主页2024/11/10 周日 7:50上海杉达学院 信息技术基础教学部40打开Oracle可视化软
25、件会显示“主页”,其中包含了新增内容、项目、数据集、数据流等类别。鼠标单击“主页”右上角“页菜单”按钮中的“定制主页”,用户可以根据自己的喜好对主页中显示的类别进行自定义。鼠标单击“主页”左上角“导航器”按钮可以切换“目录”、“数据”等栏目。导入数据2024/11/10 周日 7:50上海杉达学院 信息技术基础教学部41Oracle支持多种数据文件,如Excel电子表格(.xls、.xlsx),文本文件(.TXT)等。使用“创建数据集”的方式。Oracle支持多种数据库,如Oracle、SQLServer,Access等。使用“创建连接”的方式。创建项目2024/11/10 周日 7:50上海
26、杉达学院 信息技术基础教学部42【范例范例】(P21/2-1P21/2-1)打开Oracle可视化软件,创建项目,命名为“销售分析”,添加2个名为“全国订单明细”和“退单”的数据集,数据源为“某公司销售数据.xlsx”中的“全国订单明细”和“退单”工作表,两个数据集按照订单号进行整合。【步骤步骤】创建项目,保存项目,命名为“销售分析”。创建数据集“全国订单明细”。创建数据集“退单”。两个数据集整合。保存。项目的导入与导出2024/11/10 周日 7:50上海杉达学院 信息技术基础教学部43u用户可以通过项目的导出来备份项目。u用户可以通过项目的导入来重建项目。度量和属性2024/11/10
27、周日 7:51上海杉达学院 信息技术基础教学部44Oracle可视化软件会将数据集中的每个字段自动处理为“度量”和“属性”。度量:又称为定量数据,一般为数值数据。属性:又称为定性数据,一般为文本、日期或者地理数据等。Oracle提供了很多预设的聚合计算(聚合表示多个值聚集为一个数值),例如,总和、平均值、最大值、最小值、计数、相异值计数等。Oracle不会对属性字段进行聚合,如果要对该字段的值进行聚合,那么该字段必须转换为度量。将度量字段添加到画布,Oracle将对该字段进行求和计算。在“属性”面板中可修改聚合方式。当OracleAD将字段标识为不正确的数据类型时,单击该字段右侧的按钮(选项按
28、钮),或者选中字段后右击,通过快捷菜单中的“转换为文本”“转换为数字”“转换为日期”选项可以对字段进行数据类型的转换。【范例范例】(P37/2-6P37/2-6)Oracle将“订单号”字段自动标识为度量(数字类型),我们需要将该字段转换为属性(文本类型)。【步骤步骤】“准备”界面中使用“转换为文本”功能进行转换。添加步骤,应用脚本。保存。转换数据类型2024/11/10 周日 7:51上海杉达学院 信息技术基础教学部45“连接”功能可以将各种数据类型的字段连接起来,生成一个新字段。【范例范例】(P38/2-7P38/2-7)将“运输方式”字段、“运送日期”字段和“运输成本”字段中的值进行合并
29、,合并后的值保存至新建字段,该字段命名为“运输汇总”,合并时的分隔符设置为短划线。【步骤步骤】“准备”界面中使用“连接”功能进行数据合并。设置连接属性。添加步骤,应用脚本。保存。数据连接2024/11/10 周日 7:51上海杉达学院 信息技术基础教学部46“提取”功能可以从日期类型的字段值中抽取出“年”“季度”“月”“周”“工作日”和“一年中的第几周”等数据。【范例范例】(P39/2-8P39/2-8)提取出“订单日期”字段值所属的“季度”和“星期”数据,并将提取出的数据保存至新建字段,字段分别命名为“季度”和“星期”。【步骤步骤】“准备”界面中使用“提取”功能进行数据提取。选择需要提取的日
30、期单位。字段重命名。添加步骤,应用脚本。保存。数据提取2024/11/10 周日 7:51上海杉达学院 信息技术基础教学部47“拆分”功能可以依据位置或分隔符将文本值列拆分为若干个部分。【范例范例】(P42/2-9P42/2-9)从“产品包箱”字段中拆分出包箱大小和包箱类型,拆分后的数据保存至新建字段,字段分别命名为“包箱大小”和“包箱类型”,隐藏原始列。【步骤步骤】“准备”界面中使用“拆分”功能进行数据拆分。设置拆分属性。添加步骤,应用脚本。保存。数据拆分2024/11/10 周日 7:51上海杉达学院 信息技术基础教学部48“拆分”功能可以依据位置或分隔符将文本值列拆分为若干个部分。【范例
31、范例】(P43/2-10P43/2-10)从“产品名称”字段中拆分出产品品牌,拆分后的数据保存至新建字段,字段命名为“产品品牌”(假定“产品名称”字段值的第1个单词为产品品牌)。【步骤步骤】“准备”界面中使用“拆分”功能进行数据拆分。设置拆分属性。添加步骤,应用脚本。保存。数据拆分2024/11/10 周日 7:51上海杉达学院 信息技术基础教学部49“创建”功能可以基于函数创建计算字段。【范例范例】(P44/2-11P44/2-11)利用函数生成顾客姓氏,生成的数据保存至新建字段,字段命名为“顾客姓氏”(假定“顾客姓名”字段值的第1个字为姓氏)。【步骤步骤】“准备”界面中使用“创建”功能进行
32、字段创建。设置创建属性,函数表达式为LEFT(顾客姓名,1)。添加步骤,应用脚本。保存。字段创建2024/11/10 周日 7:51上海杉达学院 信息技术基础教学部50“分组”功能可以将文本字段中的值根据用户的需要分成若干个组。【范例范例】(P46/2-12P46/2-12)对“订单等级”字段进行分组,其中,“高级”订单为“A”组,“中级”订单、“低级”订单为“B”组,“其他”订单为“C”组,生成的数据保存至新建字段,字段命名为“订单等级定制”。【步骤步骤】“准备”界面中使用“分组”功能进行数据分组。设置分组属性。添加步骤,应用脚本。保存。数据分组2024/11/10 周日 7:52上海杉达学
33、院 信息技术基础教学部51“收集器”功能可以将数值字段中的值根据用户的需要分成若干个组。【范例范例】(P48/2-13P48/2-13)对“单价”字段创建收集器,按“高”(80)、“中”(30至80)和“低”(大于号)大于A1B1(小于号)小于A1=(大于等于号)大于等于A1=B1=(小于等于号)小于等于A1=B1(不等于号)不等于A1B1逻辑运算符含义举例逻辑与,AND(&)expr1&expr2expr1、expr2均为真,返回值为真;否则,返回为假1&1=True1&0=False0&0=False逻辑或,OR(|)expr1|expr2expr1、expr2均为假,返回值为假;否则,返
34、回为真1|1=True1|0=True0|0=False逻辑非,NOT(!)!exprexpr为真,返回值为假;否则为真!1=0!0=1常量与运算符上海杉达学院98运算符优先级【范例】1&3+22=101&3+4=101&7=101&00公式上海杉达学院99在使用公式的时候,添加计算的数据元素存储在数据集的“我的计算”文件夹中。如果项目中仅包含单个数据集或一组连接的数据集,只有一个“我的计算”文件夹,新的计算数据元素将添加到该文件夹中。如果项目中包含多个数据集,每组连接的和未连接的数据集都有一个“我的计算”文件夹。【范例范例】(P123/4-1P123/4-1)在在“销售分析”项目中,创建一个
35、新计算字段“销售利润率”,并进行可视化分析。【步骤步骤】新建计算字段“销售利润率”,公式为利润额总额除以销售额总额。将画布1重命名为“公式”。分析每个产品类别的销售额总额、利润额总额和销售利润率的情况,用数据透视表展示。设置颜色的依据为销售利润率,图表的标题为“各产品类别销售利润率”,在顶部显示图例。函数上海杉达学院100在Oracle可视化软件中,为了减少操作步骤,提高运算速度,用户可以通过函数来简化公式的计算过程。函数的输入过程跟公式的输入类似,只需要在“新建计算”对话框中,将需要的函数添加在计算的编辑框中,按照函数语法设置相关参数即可。Oracle可视化软件中预设了多种类型的函数,主要包
36、含聚合函数、运行聚合函数、字符串函数、数学函数、日历/日期函数、转换函数、系统函数、表达式函数、时间序列计算函数、筛选器函数、分析函数、空间函数等多种主题函数。常用函数计数、相异值计数上海杉达学院101CountCount功能:计算表达式中包含非空值的行数。语法:COUNT(expr)【范例范例】在“销售分析”项目中,将“公式”画布重命名为“公式与函数”,创建两个新计算字段“产品包箱计数”和“产品包箱相异值计数”,在原有图表的下方添加一个图表,分析各产品类别的产品包箱种类数目,用数据表展示。【步骤步骤】将“公式”画布重命名为“公式与函数”。新建计算字段“产品包箱计数”,公式为COUNT(产品包
37、箱)。新建计算字段“产品包箱相异值计数”,公式为COUNT(DISTINCT 产品包箱)。分析各产品类别的产品包箱种类数目,用数据表展示。设置图表的标题为“计数比较”,办公用品的颜色为蓝色(#2329ba)。CountDistinctCountDistinct功能:对计数函数进行相异处理,当计数项有重复时,不进行累计计数。语法:COUNT(DISTINCT expr)常用函数字符串函数上海杉达学院102LengthLength功能:返回指定字符串的长度,以字符数为单位。语法:LENGTH(expr)【范例范例】在“销售分析”项目中,创建两个新计算字段“姓名字符数”和“位置”,在可视化图表“计数
38、比较”的下方添加一个图表,显示姓名中包含“红”字的顾客信息,用数据表展示。【步骤步骤】新建计算字段“姓名字符数”,公式为LENGTH(顾客姓名)。显示顾客姓名和姓名字符数,用数据表展示。新建计算字段“位置”,公式为LOCATE(红,顾客姓名)。设置筛选器,显示位置不为0的顾客信息。设置图表的标题为“姓名中包含“红”字的顾客”。LocateLocate功能:返回字符串在另一个字符串中的位置,以数字表示。语法:LOCATE(expr1,expr2)常用函数时间函数上海杉达学院103TimestampDiffTimestampDiff功能:返回两个时间之间指定时间单位的间隔。语法:TIMESTAMP
39、DIFF(interval,timestamp1,timestamp2)【范例范例】在“销售分析”项目中,创建一个新计算字段“订单反应时间(周)”,在现有的可视化图表的右侧添加一个图表,分析各运输方式及时间间隔的订单数量,用数据表展示。【步骤步骤】新建计算字段“订单反应时间(周)”,公式为TIMESTAMPDIFF(SQL_TSI_WEEK,订单日期,运送日期)。分析各运输方式及时间间隔的订单数量,用数据表展示。按“订单反应时间(周)”升序排列。设置图表的标题为“各运输方式及时间间隔的订单数量”。常用函数条件函数上海杉达学院104【范例范例】在“销售分析”项目中,创建两个新计算字段“校正利润率
40、1”和“校正利润率2”,在“各产品类别销售利润率”可视化图表中增加两列,分析校正后的利润率,用数据表展示。【步骤步骤】新建计算字段“校正利润率1”,公式为CASE 产品类别 WHEN 家具产品 THEN(利润额-运输成本)/销售额 ELSE 利润额/销售额 END。新建计算字段“校正利润率2”,公式为CASE WHEN 产品类别=家具产品 THEN(利润额-运输成本)/销售额 ELSE 利润额/销售额 END。将两个计算字段添加到“各产品类别销售利润率”可视化图表中。Case(Switch)Case(Switch)功能:根据表达式的值,返回相应的数据。语法:CASE 表达式 WHEN 值1 T
41、HEN 返回的数据1 WHEN 值2 THEN 返回的数据2 ELSE 返回的数据3 ENDCase(if)Case(if)功能:根据表达式的值,返回相应的数据。语法:CASE WHEN 表达式=值1 THEN 返回的数据1 WHEN 表达式=值2 THEN 返回的数据2 ELSE 返回的数据3 ENDT数据可视化案例Datavisualizationandanalysisbasis数据可视化与分析基础数据获取2024/11/10 周日 7:57上海杉达学院 信息技术基础教学部107一、公开数据库常用数据公开网站:中华人民共和国国家统计局、百度、阿里巴巴、亚马逊等。二、互联网数据使用爬虫爬取网
42、站上的数据,但需要一定的技术水平。三、数据交易平台由于现在数据的需求很大,也催生了很多做数据交易的平台,这些平台提供各个行业的脱敏数据,但需要付费购买。四、与行业企业合作通过合作可获取相关企业的高附加值数据,这是数据获取中较为有效的途径。图解中国能源2024/11/10 周日 7:57上海杉达学院 信息技术基础教学部108能源是指能够提供能量的资源,它是整个世界发展和经济增长的最基本驱动力,是人类赖以生存的基础,是各国国民经济的重要物质基础,能源的开发和有效利用程度是各国国力和生产、生活水平的重要标志。自工业革命以来,能源问题就开始出现。当前世界能源消费以石油、天然气资源为主,也有部分国家以煤
43、资源为主,不管是何种能源结构,人类面临的能源危机都日趋严重,新能源的开发刻不容缓。在中华人民共和国节约能源法中所称的能源,是指煤炭、石油、天然气、生物质能和电力、热力以及其他直接或者通过加工、转换而取得有用能的各种资源。图解中国能源数据整理2024/11/10 周日 7:58上海杉达学院 信息技术基础教学部109本次关于中国能源的数据均来自国家统计局网上公布的年度数据(http:/ 周日 7:58上海杉达学院 信息技术基础教学部110为了便于后续的数据分析,我们需要把该数据的行列置换,即设置能源种类为列,时间为行。新建两张数据表“能源生产数据”和“能源消耗数据”,用于存放行列置换后的数据。行列
44、置换可利用Excel中复制粘贴数据时的转置功能(使用“开始”选项卡“剪贴板”组中的“粘贴”下拉菜单中的“转置”菜单项,即可得到转置后的数据)。图解中国能源项目创建和数据导入2024/11/10 周日 7:58上海杉达学院 信息技术基础教学部111在Oracle中创建项目“图解中国能源”,并将数据导入,数据集命名为“能源生产数据”和“能源消耗数据”,整合两张数据表(匹配项为“时间”)。图解中国能源能源概况2024/11/10 周日 7:58上海杉达学院 信息技术基础教学部112能源总量差额分析我们利用条形图显示每年的能源生产总量,利用线性图显示每年的能源消耗总量,从中可以看出我国的能源生产总量和
45、消耗总量都是逐年上升的,但是,每年的消耗总量均大于生产总量,也就是说,为了满足能源需求,我国每年都需要进口能源,且进口数量逐年提高。四类能源的差额根据我们获得的数据显示,我国能源主要分为四个大类,原煤、原油、天然气和新能源,在我国能源总量存在缺口的情况下,我们发现四类能源中,新能源基本上能够自给自足,其他三类能源都存在缺口,且缺口逐年加大,其中,缺口最大的是原油。图解中国能源能源概况2024/11/10 周日 7:58上海杉达学院 信息技术基础教学部113能源总量差额分析 【操作步骤】(1)将第一张画布命名为“能源概况”。(2)向画布中添加三个字段数据,“时间”、“能源生产总量”和“能源消耗总
46、量”。(3)在语法面板中,设置可视化类型为“组合图”。(4)在语法面板中,设置Y轴的依据为“能源生产总量”和“能源消耗总量”,X轴的依据为“时间”。(5)在语法面板中,设置Y轴中的“能源生产总量”以条形图显示。(6)在语法面板中,设置Y轴中的“能源消耗总量”以线性图显示。(7)在属性面板中,设置该可视化图表的标题为“能源总量差额”。四类能源的差额 【操作步骤】(1)在数据面板中,添加计算字段“原煤差额”,计算公式为:原煤生产-原煤消耗。(2)同样操作,添加计算字段“原油差额”、“天然气差额”和“新能源差额”。(3)在“能源总量差额”可视化图表下方,添加五个字段数据,“时间”、“原煤差额”、“原
47、油差额”、“天然气差额”和“新能源差额”。(4)在语法面板中,设置可视化类型为“表”。(5)在语法面板中,设置行轴的依据为“原煤差额”、“原油差额”、“天然气差额”和“新能源差额”。(6)在属性面板中,设置该可视化图表的标题为“四类能源差额”。图解中国能源四类能源生产与消耗比例2024/11/10 周日 7:58上海杉达学院 信息技术基础教学部114每年四类能源生产比例我们发现我国的能源生产总量是逐年上升的,四类能源中原煤生产量的比例最大,约占总量的四分之三,其余三类能源生产量总计约占四分之一。每年四类能源消耗比例我们发现我国的能源消耗总量是逐年上升的,四类能源中原煤消耗量的比例最大,约占总量
48、的四分之三,其余三类能源消耗量总计约占四分之一。筛选为了方便比较各个年份的四类能源的比例,我们选取第一年(2000年)、中间年份(2009年)以及最后一年(2018年)的数据进行比较,我们发现原煤、原油的生产和消耗量的比例都有所下降,而天然气、新能源的生产和消耗量的比例都有所上升。图解中国能源四类能源生产与消耗比例2024/11/10 周日 7:58上海杉达学院 信息技术基础教学部115每年四类能源生产比例 【操作步骤】(1)新建画布,命名为“四类能源生产与消耗比例”。(2)向画布中添加五个字段数据,“时间”、“原煤生产”、“原油生产”、“天然气生产”和“新能源生产”。(3)在语法面板中,设置
49、可视化类型为“环形”,设置格状图列的依据为“时间”。设置值的依据为“原煤生产”、“原油生产”、“天然气生产”和“新能源生产”。(4)在属性面板中,设置该可视化图表的标题为“每年四类能源生产比例”。每年四类能源消耗比例 【操作步骤】(1)选择“每年四类能源生产比例”可视化图表,鼠标右键单击,在弹出的快捷菜单中,选择“编辑”/“重复可视化”选项,复制一个相同的可视化图表。(2)选择下方的可视化图表,在语法面板中,设置值的依据为“原煤消耗”、“原油消耗”、“天然气消耗”和“新能源消耗”。(3)在属性面板中,设置该可视化图表的标题为“每年四类能源消耗比例”。筛选 【操作步骤】(1)将“时间”字段添加到
50、画布上方的筛选器中。(2)筛选出“2000年”、“2009年”和“2018年”。如需要比较其他年份,也可筛选出其他相应年份数据。图解中国能源叙述2024/11/10 周日 7:58上海杉达学院 信息技术基础教学部116将做好的两张画布添加到叙述中,方便演示。【操作步骤】1.切换到“叙述”界面,依次添加两张画布。2.点击右上角的“表示”按钮,用于演示。演示结束,可单击右上角的关闭按钮退出表示模式,最后,保存并导出该项目文件(包含数据,无需密码),项目文件命名为“图解中国能源.dva”。3.导出项目中的两张画布,分别命名为“能源概况.png”和“四类能源生产与消耗比例.png”。图解新冠肺炎疫情发