1、 欧洲新冠肺炎疫情大数据可视化设计与实现 钱浩东 苏有慧 周军 杨晨摘 要: 以欧洲疫情数据为依据,从多个层面展示欧洲疫情的发展。根据9月14日欧洲新冠肺炎疫情数据,利用Hive与大数据框架Hadoop对其进行处理,借助Tableau组件对欧洲9月14日疫情情况进行可视化,获得相关可视化图表。关键词: 欧洲新冠肺炎; Tableau; 大数据可视化; Hadoop; Hive中图分类号:TP391.4 文献标识码:A 文章编号:1006-8228(2021)09-51-04Abstract: According to the European epidemic data, this paper
2、 shows the development of the epidemic in Europe from multiple levels. The epidemic data of COVID-19 in September 14th is processed by Hive and big data frame Hadoop. The epidemic data in September 14th is visualized by Tableau component to obtain the relevant visual charts.Key words: European COVID
3、-19; Tableau; Big data visualization; Hadoop; Hive0 引言大数据背景下,海量数据只有被合理解读与表达之后才能展现其奥秘1-2,大数据、人工智能時代的到来,使这些设想变得可能。可视化技术可以将原始数据转变成易于展示的文字、 图表或图形的形式,是体现数据关联性价值最直观的方式3。人们不再局限于通过关系数据表来观察和分析数据信息, 还能以更直观的方式看到数据及其结构关系4。一般而言,大数据的可视化复杂且难以理解,需要经过抽取、清洗、转化、挖掘 等一系列过程才能展示潜在价值信息5。目前,大数可视化形式主要包括文本可视化、网络(图)可视化、时空数据可视化
4、和多维数据可视化6,丰富多样的可视化形式极大程度的为人们获取关键信息带来便利。本文通过多种类别图形的方式来反映欧洲各国疫情数据的变化趋势,直观地体现出不同指标下的数据差异。具体来说,根据9月14日欧洲新冠肺炎疫情数据,利用Hive与大数据架Hadoop对疫情数据进行处理,借助Tableau组件对欧洲9月14日疫情情况进行可视化展示,获得了欧洲各国在不同指标下的相关图表。1 可视化内容设计Tableau是大数据领域中常用数据可视化软件,能够基于海量的数据灵活、快捷地生成多种图形,能够将大量数据智能地转变成各类图表。Tableau 利用便捷的数据接口快速提取数据7 ,能够兼容许多主流的数据库或者数
5、据仓库工具,通过接口驱动进行连接,对于存储在数据库的大量数据能够方便快捷地进行可视化。本文数据来源于百度新冠实时肺炎疫情数据8,利用Tableau对其进行处理与展示,获得相应的图形。1.1 欧洲各国疫情柱状图下面,借助于Tableau生成欧洲各国疫情柱状图。从柱状图,可以直观地看到各个国家确诊、死亡以及治愈人数,方便人们从整体上了解新冠疫情严重程度。图1(a)中横轴为欧洲各个具体国家,纵轴是确诊人数,可以看出俄罗斯、西班牙、法国、英国、意大利等国确诊人数较多。图1(b)中横轴为欧洲各个具体国家,纵轴是死亡人数,可以看出英国、意大利、法国、西班牙、俄罗斯等国死亡人数较多。图1(c)中横轴为欧洲各
6、个具体国家,纵轴是治愈人数,可以看出俄罗斯、德国、意大利、西班牙等国治愈人数较多。1.2 欧洲各国新冠疫情确诊情况地理图借助于Tableau软件生成的欧洲各国新冠疫情确诊、死亡、治愈情况地理图。以地理图形式,具体清晰地展现相关指标下每个国家人数的情况。颜色越深,代表人数越多。以鼠标悬浮的形式可以查看具体的国家和人数。就确诊情况而言,从图2(a)可以直观地看出俄罗斯的颜色最深,其确诊人数最多;其次是欧洲西南部的国家依次为西班牙、英国、法国等国。就治愈情况而言,从图2(b)可以直观地看出俄罗斯的颜色最深,其治愈人数最多;其次是欧洲西南部的国家依次为德国、意大利、西班牙等国。就死亡情况而言,从图2(
7、c)可以直观地看出英国的颜色最深,其死亡人数最多;其他欧洲西南部的国家如法国、意大利、西班牙等国死亡人数也较多。而地图上俄罗斯的颜色较前几个国家淡,死亡人数较少。1.3 欧洲各国在确诊、死亡、治愈指标下的人数气泡图下面是借助Tableau软件生成的气泡图,分别是确诊人数气泡图、治愈人数气泡图、死亡人数气泡图、现存确诊人数气泡图。图3中,气泡越大代表确诊人数越多,其中俄罗斯确诊人数最多,为1068320人,其次是西班牙,确诊人数为593730人。图4中,气泡越大代表治愈人数越多,其中俄罗斯确诊人数最多为878700人,其次是德国,确诊人数为237550人。图5中,气泡越大代表死亡人数越多,其中英
8、国死亡人数最多为41637人,其次是意大利,确诊人数为35624人。图6中,气泡越大代表现存确诊人数越多,其中西班牙现存确诊人数最多,为1068320人,其次是英国,现存确诊人数为327336人。1.4 欧洲各国在确诊、死亡、治愈、现存确诊指标下的人数比值饼图为了解在各指标下,每个国家指标人数占总额的比值,本文借助Tableau,生成确诊人数总额比饼图、治愈人数总额百分比饼图、死亡人数总额百分比饼图、现存确诊人数总额百分比饼图。从图7可以看出,俄罗斯确诊人数占总额百分比最多,为39.20%,其次是德国,占比为10.60%;从图8可以看出,俄罗斯的治愈人数占总额百分比最多为25.90%,其次是西
9、班牙,为14.39%;从图9可以看出,英国的现存确诊人数占总额百分比最多,为19.56%,其次为法国,为14.54%;从图10可以看出,西班牙的死亡人数占总额百分比最多,为21.96%,其次是英国,为19.59%。2 系统架构与实现2.1 整体架构整体架构分为三层:数据存储层、数据处理層以及数据展示层。如图11(a)所示,数据存储层利用Hadoop中的模块Hdfs分布式文件存储系统来进行数据存储;数据处理层利用Hive编写Hql来进行数据的处理;数据展示层利用Tableau连接Hive中的库来进行图表化的展示。2.2 具体实现 数据存储层通过Hdfs存储数据。数据存储层利用Hadoop中的Hd
10、fs分布式文件存储系统,将获取的相关疫情信息进行存储。如图11(b),Hdfs,采用分布式设计与按块存储设计,可以使其存储大量数据,并且减少一定的数据传输时间。由于疫情数据数据量大的特点,所以选用Hadoop中的Hdfs模块来进行数据存储。 数据处理层通过Hive进行数据处理。对于获取的新冠疫情数据,我们依旧需要进行处理,来删选出我们所需要的重要字段。Hadoop里的MapReduce是大数据离线计算框架,能够对Hdfs上的数据进行读取、清洗、聚合,从而获得所需要的干净数据。图11为Hive具体架构图。Hive是数据仓库工具,如图11(c),Hive的底层运行的依旧是MapReduce,它能够
11、将Hdfs上数据通过编写类SQL语句,通过解释器、编译器、优化器、执行器转化成MapReducer程序,进行自定义处理与清洗。本系统将Hdfs上的疫情数据通过HQL语句来筛选出欧洲各国的疫情信息,然后再存储到Hdfs上,方便通过Hive来查看数据。将数据处理完成后,获取到相应字段如表1所示,以及对应的数据。 数据展示层本文通过Tableau与相关ODBC驱动连接Hive,将Hive中处理过后的数据,按照确诊、死亡、治愈、现存确诊人数指标生成对应指标下的柱状图、地理图、气泡图和相关人数总额比值饼图。数据展示层以多种形式的图形,从多个角度展示欧洲各国疫情情况,做到了真正意义上的数据可视化。3 结束
12、语大数据可视化将数据以图表形式进行展示,提高数据的可读性。本系统借助Tableau以及Hadoop和Hive大数据框架,对欧洲各国的疫情数据实现了可视化,生成相关柱状图、地理图、气泡图以及饼图,方便直观了解欧洲疫情,对从事欧洲相关活动的人们做好疫情防控起到至关重要的作用。参考文献(References):1 艾廷华.大数据驱动下的地图学发展J.测绘地理信息,2016.41(2):1-72 曾悠.大数据时代背景下的数据可视化概念研究D.浙江大学,2014.3 陈镭,刘玉,杨琴.高校实验室大数据可视化平台研究J.计算机时代,2020.11:43-464 刘勘,周晓峥,周洞汝.数据可视化的研究与发展
13、J.计算机工程,2002.8:1-2,635 贺群,杨明川.基于Web GIS的大数据可视化研究与优化J.电信技术,2015.6(8):37-406 王露,杨晶晶,黄铭.基于R语言和Tableau的气象数据可视化分析J.计算机与网络,2017.43(24):69-717 任磊,杜一,马帅等.大数据可视分析综述J.软件学报,2014,25(9):1901-19368 百度新冠肺炎实时数据:http:/计算机时代2021年9期计算机时代的其它文章流式大数据数据清洗系统设计与实现NEG-MF:一种针对推荐系统的矩阵分解图嵌入模型智慧图书馆测温服务机器人研究人脸活体检测技术在校园智能安防的应用综述国内外STEM教育研究热点分析及启示基于词表规则与语句上下文消歧的汉字简繁转换 -全文完-