1、计算机科学与人工智能河南科技Henan Science and Technology总第799期第5期2023年3月智能公交系统的大数据平台信息资源规划张震1孔令涛2郭向海2陈慧颖3范琦2(1.郑州大学电气与信息工程学院,河南郑州450001;2.河南省交通运输调度指挥中心,河南郑州450000;3.郑州大学计算机与人工智能学院,河南郑州450001)摘要:【目的目的】城市公交系统的跨越式建设存在着诸多亟待解决的问题,其中“散”的建设模式迫切需要得到改变,以便全面、系统地梳理行业的信息资源。【方法方法】本研究使用分层构建的方式来建设大数据分析云平台,并采用基于数据标准化检测的智能公交系统信息资
2、源目录,构建数据交换平台与可视化数据资源平台。【结果结果】基于上述方法,本研究提出智能公交大数据平台的一整套建设方案以及依赖该平台的信息资源规划方案。【结论结论】从而实现对数据源的整合与深度利用,解决信息孤岛、共享程度低等问题。关键词:信息资源规划;数据标准化检测;大数据平台中图分类号:TP391文献标志码:A文章编号:1003-5168(2023)05-0026-06DOI:10.19968/ki.hnkj.1003-5168.2023.05.005Information Resource Planning of Big Data Platform for IntelligentPublic
3、 Transport SystemZHANG Zhen1KONG Lingtao2GUO Xianghai2CHEN Huiying3FAN Qi2(1.School of Electrical and Information Engineering,Zhengzhou University,Zhengzhou 450001,China;2.Henan Provincial Transportation Dispatching Command Center,Zhengzhou 450000,China;3.School of Computer and Artificial Intelligen
4、ce,Zhengzhou University,Zhengzhou 450001,China)Abstract:PurposesThere are many problems to be solved in the leap-forward construction of urbanpublic transport system,among which the scattered construction mode urgently needs to be changed inorder to comprehensively and systematically sort out the in
5、formation resources of the industry.MethodsThis study uses a hierarchical construction method to build a big data analysis cloud platform,and usesan intelligent public transportation system information resource directory based on data standardizationdetection to build a data exchange platform and a
6、visual data resource platform.FindingsBased on theabove methods,this study proposes a set of construction schemes for the intelligent bus big data platformand an information resource planning scheme relying on the platform.ConclusionsIn order to realizethe integration and deep utilization of data so
7、urces,solve the problems of information island and low sharing degree.Keywords:information resource planning;data standardization detection;big data platform收稿日期:2022-12-30基金项目:2019年河南省交通运输厅科技计划项目“河南省交通运输行业信息资源目录管理及标准检测平台关键技术研究”(2019G3)。作者简介:张震(1966),男,博士,教授,博士生导师,研究方向:信息与通信工程、大数据技术;孔令涛(1977),男,本科,高
8、级工程师,研究方向:交通工程;郭向海(1976),男,本科,高级工程师,研究方向:交通工程;陈慧颖(1996),女,硕士生,研究方向:计算机应用;范琦(1984),男,硕士,高级工程师,研究方向:交通工程。第5期270引言近年来,城市智能公交行业的信息化建设产生带来了大量数据资源。随着大数据时代的到来,信息资源的总量还在飞速增长,“互联网+”使无处不在的公共交通基础设施网络、无时不有的人和物发生位移,从而产生海量的动态数据,这些数据对企业的发展和社会的服务都起到至关重要的作用,为公共交通行业带来新的机遇与挑战。纵观城市公交行业的信息化发展状况,发现其缺少信息交换共享机制、缺少综合大数据服务平台
9、、缺少信息交换共享的基础设施和数据径,行业宏观决策缺少数据支持。通过构建大数据云平台,能有效解决平台搭建的数据质量不高等问题。发展现代化城市智能公交系统,就是用信息技术来改造和提升公共交通基础设施、运输装备的智能化水平和运营效能。通过对大数据的交换、整合和分析,探索出城市公交系统与大数据融合发展的创新之路,促进城市公交系统的提质增效。通过对城市公交系统内的海量信息进行资源规划,并以大数据平台1为支撑,为信息资源检索和开发利用提供有效途径。通过搭建数据整合与共享服务平台,能实现各业务间的信息共享,提高对社会公众和企业的信息服务能力。1智能公交系统信息资源规划现状随着计算机技术、数据存储与管理技术
10、的不断发展,大数据、云计算等新技术也不断涌现。大数据时代技术革新的浪潮将推动企业管理朝着智能化、标准化的方向发展,城市智能公交行业也要把握好这次技术革新。然而在多年的信息化建设中,城市智能公交行业虽建设了许多应用软件和大量的数据库,可信息孤岛2、共享程度低等问题十分突出,“散”的建设模式既包括数据库建设零散,也包括数据资源的存储零散,数据整合与共享程度不高。同时,数据资源缺乏系统规划与有效组织,数据资源体系不完善,数据质量不高,难以实现数据共享。数据资源分散存储在各应用系统后台自有的数据库中,数据资源挖掘分析和应用深度不够。主要表现在以下三个方面。1.1缺少信息交换共享机制,行业宏观决策缺少数
11、据支持虽然根据城市智能公交的业务需求初步建立起专业数据区域,但条块分离的格局、信息交换共享机制的缺失,使得数据资源自成体系,导致跨区域、跨部门的信息交换共享范围存在局限性,不利于对综合数据的挖掘,影响对宏观决策的支撑。1.2缺少综合大数据服务平台,缺少信息整合交换共享的基础设施虽然城市公交系统积累了大量的数据资源,但各业务间的数据共享程度低,缺少统一的数据管理平台,导致行业管理数据、业务数据相对分散和孤立,已无法满足城市智能交通的发展需要。目前,各行各业都在追求信息资源的合理整合。通过数据整合与共享交换技术来提高整个行业的信息利用率。智能公交大数据分析云平台为数据整合、共享、交换奠定更加坚实的
12、硬件基础。1.3基础数据的标准不统一,数据质量不高基础数据的数据标准和数据质量的好坏对下游决策系统的正常运行和决策分析起着至关重要的作用。由于各部门业务系统的差异、数据获取渠道的不同,加之数据维护的方式和手段各异,导致基础数据的维护要求不统一。基础数据不一致,使得数据质量无法判别,直接影响业务管理及应对重要事件的决策分析能力。2信息资源规划及平台架构2.1信息资源规划整体思路信息资源规划是顶层设计中的一项重要工作,属信息资源层建设。站在全局发展的战略高度,对开展业务活动所需的信息资源进行全面规划,包括对数据的生产、处理、存储、应用、管理等整个生命周期进行分析研究。智能公交系统信息资源规划是在智
13、能公交大数据平台建设的基础上,根据数据需求分析结果,整合分散在各业务系统中的基础数据,补充采集视频、危险性定位、场站状态、客流等实时数据,从而满足公交总公司对城市公交运营、管理的需求,并为公众信息服务提供数据资源支持。智能公交大数据平台按照加强安全监管、促进协同应用、提升决策与服务水平的需要,分析梳理数据的指标,分类建立基础数据仓库3、业务数据仓库和主题数据仓库,并建立部门之间、业务之间的数据交换,完成各业务部门的数据同步与共享等。张震,等.智能公交系统的大数据平台信息资源规划28第5期2.2大数据平台整体架构结合信息资源规划的整体思路,智能公交大数据平台的整体架构如图1所示。智能公交大数据平
14、台是以云化硬件为基础构架。大数据平台的底层核心计算引擎分为两种,一是面向海量数据离线处理的开放数据处理服务,二是面向大量数据实时计算的实时计算服务。对不同的数据输出要求,提供离线(实时)的数据服务。在这两类计算引擎的基础上,提供产品化的应用功能,实现对底层技术复杂性的屏蔽,为资源使用者提供数据标准化检测4、数据交换平台5、可视化数据资源平台,并为具有开发能力和运维能力的产品使用者提供开放的应用接口、运维平台、数据仓库建模工具、可视化工具和数据授权系统等。以数据交换平台为工具,为整个智能公交行业提供数据输出区的共享和服务。纵贯整个体系的统一元数据服务,可实现全生命周期的数据血缘6和数据源追溯。3
15、智能公交系统信息资源规划建设3.1逻辑结构设计智能公交大数据平台需要具备以下四个功能,即大容量数据存储的功能、数据整合和交换的功能、运行管理的功能、数据应用的功能。使用分层的构建方式,同时结合综合大数据平台的核心思想,智能公交的大数据平台自底向上可分为数据采集层、传输存储层、数据资源层、应用支持层、应用展示层,其逻辑结构如图2所示。该系统体系囊括数据的抽取、清洗、分类、加工、装载、交换、展示等操作。传输存储层对抽取的数据进行第一次清洗,将通过标准化检测的数据存储在数据资源层,数据资源层采用数据仓库的数据集成方式。应用支撑层是基于SOA7的公共交通大数据平台逻辑层的技术分析,可实现跨公司、跨系统
16、的公共交通智能调度分析。通过智能公交信息资源目录和数据交换平台来实现数据资源的整合与共享,平台使用者通过普通浏览器、客户端应用程序、平板电脑、手机等终端来访问应用展示层,基于 Portal8的显示技术,从而满足平台使用者个性化的显示需求,并与数据资源层、应用支持层的扩展模型相适应。3.2数据采集层数据采集层包括语音通信终端、移动应急处置终端、人工坐席,以及各级领导及管理人员使用的交通专网客户端,各级统计、计划管理的业务人员使用的交通专网客户端,社会公众使用的互联网客户端和进行交通运行动态数据采集的外场监控监测终端。交换平台的数据导入、手工录入、数据库自动转发及业务系统自动生成T日增量数据等都是
17、数据采集的常用方式。通过对已有的信息资源和数据源系统数据传送机制进行分析,并结合信息资源规划理论,发现智能公交行业要存储的数据可分为两类,一是作为基础数据的存量数据,二是作为业务数据的增量数据。由此可知,智能公交大数据平台的数据采集层可使用以下三种方式进行数据的采集和录入。数据人工录入。图1智能公交大数据平台整体架构云基础设施核心计算平台开放数据处理服务实时计算服务同一账号体系数据同步服务:实时/离线集成服务平台数据服务化接口:实时/离线开发套件BI套件算法平台数据中心运维平台数据挖掘数据开放数据应用应用场景BWBI图2智能公交大数据平台逻辑结构应用展示数据资源应用支持数据采集传输存储人工录入
18、、电子化录入、数据交换接口数据标准化检测应用服务器、数据库服务器、主机(灾备)服务主题BW业务BW主题BW数据交换平台可视化数据资源平台信息资源目录张震,等.智能公交系统的大数据平台信息资源规划第5期29支持相关人员根据需要采用人工的方式录入数据。电子化导入。支持用户导入符合要求的excel、txt格式数据文件。数据交换接口。支持用户利用数据转换接口,从已有的相关业务应用系统中共享数据。3.3传输存储层3.3.1硬件环境。传输存储层主要包括网络和主机存储,为大数据平台建设的实施提供支撑。网络通信包括有线网络、无线网(GPRS/CDMA9、3G/4G/5G、WiFi)等,主要建设二级接入网络,从
19、而实现各部门之间和各业务之间的互联互通。主机存储系统包括主机服务器、应用服务器、数据库服务器、灾备服务器等设备。3.3.2数据标准化检测。在传输存储层要对数据采集层传输来的数据进行数据标准化检测,对数据仓库上游的数据进行数据治理10,能有效提高入仓时的数据质量。数据标准化检测除了对指标、数据元11、数据库结构等数据自身的标准化进行检测外,还要对交换数据的标准、元数据标准等进行检测。数据标准化检测主要是对采集到的数据进行过滤、筛选等,剔除和调整不合理的数据,同时对数据项的数据类型、数据格式、数据单位、数据值域以及数据的一致性和完整性进行检测。在智能公交大数据平台中,同一应用数据有可能分布在不同的
20、数据源中,在进行数据采集抽取时,为了消除数据的不一致性,要根据数据的真实性、有效性验证规则对数据进行整合,并对数据进行转换清洗。该系统的数据标准化检测有以下四个方面。消除同名异义和异名同义的现象。例如,在业务系统中,性别有的用“男/女”来表示,有的用“1/2”来表示,含义是一样的,但在进入数据仓库前必须调整成为统一的格式。一致性检查。当同一数据来自不同的数据源时,要对数据进行分析比较,只有审核一致后才能进行入数据仓库中,从而达到系统的一致性。冗余数据删除。将重复出现的同值数据删除。例如,在系统中将15位身份证号转成18位身份证号后,发现其会与已有的18位身份证记录重复,且在其他关键数据域也记录
21、一致的话,可进行消除冗余工作。数据归并。当某一主题的数据是由不同的系统组合形成时,按照关键项对数据交换与整合软件进行合并,如车辆的车牌号,对组合后的数据要统一整合到数据中心。3.4数据资源层数据资源层负责各种动(静)态信息的资源整合、统一管理、统一对外提供数据服务。数据资源层包括大数据平台所依托的基础数据库和根据应用需求建设的各类应用数据库、数据仓库等。数据资源层包括基础数据仓库、业务数据仓库、主题数据仓库三大板块12,如图3所示。3.5应用支持层应用支撑层位于应用展示层和数据资源层之间。通过数据抽取13和清洗技术为应用展示层所需的数据做准备,使用数据整合与交换技术来实现数据的实时共享与转发。
22、应用支撑层包括数据交换平台。数据交换平台用于整合交通行业数据,将文件、数据库、ETL14等数据的接入方式进行统一管理,并开发出数据融合汇聚、格式转换、转换处理、实时转发、配置管理等功能。数据交换平台的工作流程如下。首先进行数据的抽取。数据使用者可根据不同的业务需求,对数据资源层中的数据仓库各数据表中的数据进行查询操作。然后,根据数据交换平台数据库的数据标准对抽取到的数据进行数据清洗,并删除不符合数据标准的信息。同时,根据数仓下游系统数据库的格式要求对符合数据标准的数据资源进行格式转换,从而确保下发给数仓下游系统的数据格式的一致性。最后,数据服务要面向行业数据需求来开发实时的数据交互接口,服务提
23、供载体是各类数据应用API,API采用标准的Webservice规范、Rest风格的数据服务接口15、XML的数据返图3数据库总体结构图主题数据仓库客流出行分析数据表换乘分析数据表成本收入数据表服务质量数据表线网优化数据表基础数据仓库业务数据仓库城市道路基础数据表线路基础数据表站点基础数据表车辆基础数据表场站基础数据表地理空间基础数据表车辆定位与状态数据表运营计划数据表发车安排数据表场站检测数据表收银管理数据表考核评估数据表移动支付数据表客流数据表张震,等.智能公交系统的大数据平台信息资源规划30第5期回,范围要覆盖到所有基础数据的简单与组合查询,并根据具体的应用需求进行二次开发。此外,要提供
24、接口的注册与查询页面,可实现对服务注册与服务描述的查看。3.6应用展示层3.6.1可视化数据资源平台。在行业已有的应用系统的基础上,完善或新建相关的应用平台,包括可视化数据资源平台,用来展示信息资源目录。信息资源目录是信息组织的一种方式,其能根据语法、语义和语用等规则对信息进行组织,从而方便信息的检索。通过信息资源目录,可直接定位到相应的信息资源,如主题数据库、服务资源、数据源数据仓库等。3.6.2信息资源目录。信息资源目录是参照元数据的标准规范,对数据资源进行梳理,对梳理后的信息进行加工编目,并生成资源目录体系。信息资源目录体系模型包括支撑标准、元数据库、信息资源目录三部分16。在资源目录编
25、制时,根据元数据标准规范,来纠正标准和规范不统一的问题及目录内容检查时发现的问题,从而达到信息统一规范,以便目录的创建和管理。信息资源目录体系的业务流程包括资源编目、资源注册、资源发布,并提供资源访问和资源维护等功能,信息资源目录进行资源管理的实现流程如图4所示。目录管理可理解为综合数据库数据的查找索引配置,目录本身的元数据配置不依托其他模块,可独立运行。目录管理的开发过程是从数据元开始,先识别所有抽取数据的数据项,并对其进行数据元分析,从而形成每个资源的数据元集,然后对数据元集进行分类,并形成目录,目录的分类及数据元的设计都要遵照相关标准规范。基于数据标准接入的数据,能按数据来源、主题等自动
26、生成相应的数据资源目录。基于指标体系建立的指标数据,能按主题自动生成相应的指标数据资源目录。按提供单位、主题等对数据资源进行自动分类编目展示,展示的内容包括数据项、数据简介、数据来源、数据更新频率、更新方式和数据更新描述等17,提供样例数据下载和指标追溯。按照指标分类规则、类别对指标进行分类展示,展示项包括指标名称、指标定义、时空维度等。数据资源服务。根据国标、地标及行业标准,并结合各行业系统的特点,对整合资源库中接入的数据整理出资源目录,并把相应的资源对外发布为webservice或http服务。当资源需求方在管理系统上查询到可共享的资源时,通过webservice的方式向数据管理系统提出数
27、据请求,资源提供方可根据请求,使用webservice或http方式把数据共享给资源需求方。4结语大数据平台建设及数据标准化检测技术和信息资源目录技术的应用是一项长期工作,本研究提出一整套智能公交大数据平台的建设方案及依赖于该平台的信息资源规划方案,提出采用基于数据标准化检测的智能公交系统信息资源目录,实现数据源的整合与深度利用。通过构建数据交换平台与可视化数据资源平台,从而有效解决信息孤岛、共享程度低等问题。参考文献:1 赵晔.大数据背景下数据监管平台发票信息采集系统设计与实现 A.中共沈阳市委、沈阳市人民政府.第十七届沈阳科学学术年会论文集 C/中共沈阳市委、沈阳市人民政府:沈阳市科学技术
28、协会,2020:340-342.2 江西打破信息孤岛 让政务数据“动”起来 J.计算机与网络,2020(15):3.3 吴茂传.基于数据仓库的船舶建造数据集成技术研究 J.工业控制计机,2020(9):114-116.4 张佳炜.环境信息数据标准化及智能分析平台设计 D .银川:宁夏大学,2016.图4信息资源目录实现流程抽取数据存储数据存储数据软件系统目录查询目录信息发布目录权限配置目录挂接资源目录创建存储数据张震,等.智能公交系统的大数据平台信息资源规划第5期315 郑海燕.政务大数据管理平台的战略规划与设计研究 D.南京:南京邮电大学,2019.6 金泳.基于数据仓库的数据血缘管理研究
29、J.轻工科技,2019(4):81-82,93.7 孙艳英.基于SOA的安全控制台软件系统设计 J.自动化技术与应用,2020(9):32-36.8 CHEN C J.A portal to transnational communication:problematizing identity politics in Ha Jin s A Map of Betrayal J.Textual Practice,2020(19):1671-1689.9 乔梁.GPRS/CDMA无线通信技术在气象自动站的应用 J.数字技术与应用,2016(5):32.10 谢娟.教育数据治理的伦理框架:价值、向度与
30、路径 J.现代远程教育研究,2020(5):15-24.11 张凌,任雪芳.数据智能分类与分类智能检索识别 J.山东大学学报(理学版),2020(10):7-14.12 张伟志.证券行业数据挖掘系统开发与设计 D.成都:电子科技大学,2013.13 吴信东,董丙冰,堵新政,等.数据治理技术 J.软件学报,2019(9):2830-2856.14 SHARMA S,SOLEIMANIOUN N,KAUR R,et al.Comparative study of the effect of Mg,Zn and Ag dopants onproperties of titanium dioxide as mesoporous ETL for photovoltaic application J.Materials Chemistry and Physics,2020,257:123730.15 陈海明,石海龙,李勐,等.物联网服务中间件:挑战与研究进展 J.计算机学报,2017(8):1725-1749.16 吴轩.基于元数据模型的地质资料编目与互联互查平台设计与实现 D.北京:中国地质大学(北京),2018.17 刘圆圆.面向大规模流数据处理的近似计算及质量保证策略研究 D.长春:吉林大学,2019.张震,等.智能公交系统的大数据平台信息资源规划