1、1公共数据开放报告卫生健康2001为什么要开放卫生健康公共数据?政府将公共数据以可机读形式开放给社会进行开发利用,有利于释放公共数据的价值,促进数字化发展。近年来,国家对公共数据开放工作高度重视。2021 年 3 月 13 日,中华人民共和国国民经济和社会发展第十四个五年规划和 2035 年远景目标纲要中提出要“扩大基础公共信息数据安全有序开放,探索将公共数据服务纳入公共服务体系,构建统一的国家公共数据开放平台和开发利用端口,优先推动企业登记监管、卫生、交通、气象等高价值数据集向社会开放”。目前,我国卫生健康领域开放了哪些公共数据?这些数据是否真正能用和好用?这些数据是如何被利用的?形成了哪些
2、成果?全球其他国家和地区又是如何开放和利用卫生健康类公共数据的?继交通运输公共数据开放报告之后,作为开放数林系列报告中的又一部行业领域类报告,卫生健康公共数据开放报告对以上问题开展了研究。002哪些地方开放了卫生健康类公共数据?截至 2021 年 11 月,我国已有 12 个省级和 115 个城市平台开放了卫生健康领域数据 13808 个,数据容量达到 2.68 亿。图 1 是全国各省域开放的卫生健康领域有效数据容量的空间分布,颜色越深代表该省域所开放的数据容量越多。数据容量是指将一个地方平台中可下载的、结构化的、各个时间批次发布的数据集的字段数(列数)乘以条数(行数)后得出的数量。从图 1
3、中可见,总体上来看,卫生健康领域数据开放容量较多的省域集中在东部沿海地区的山东省、广东省、浙江省以及中西部的四川省等地。图 1 省域卫生健康数据容量空间分布(不包括直辖市、港澳台)003相比省本级平台,城市平台开放的卫生健康数据容量更大、内容丰富性程度更高。图 2 是全国各城市开放的卫生健康领域有效数据容量的空间分布,数据容量较高的城市集中在山东省、浙江省与四川省内,包括南充市、嘉兴市、滨州市、温州市、烟台市、台州市、济南市等。图 2 城市卫生健康数据容量空间分布004卫生健康类公共数据开放在各行业中处于什么水平?卫生健康领域的数据主要提供部门包括卫生健康部门、医疗保障部门以及药品监管主管部门
4、等。与其他条线部门相比,在数据集数量上,卫生健康主管部门开放的数据集总数仅次于文化旅游,在各部门中居于前列,如图 3 所示。图 3 各政府部门开放的有效数据集总数005 图 4 各政府部门开放的数据容量数据容量比数据集总数更能体现一个行业领域的数据开放总量,在数据容量方面,市场监管部门开放的数据容量最高,达到 4.52 亿,而医疗保障部门开放的数据容量排第七位,达到 1.36 亿,卫生健康部门开放的数据容量达到 0.58 亿,与其他部门相比整体上处于中上水平,如图 4 所示。006哪些地方的卫生健康数据开放水平最高?基于开放数林指标体系,结合卫生健康领域特点,报告重点从准备度、数据层和利用层三
5、个维度及下属多级指标对卫生健康领域开放的公共数据开展评估(如图 5 所示):准备度是“数根”,是数据开放的基础,包括开放利用要求、安全保护要求、保障机制三个一级指标。数据层是“数叶”,是数据开放的核心,包括数据数量、开放范围、数据质量、数据规范、安全保护五个一级指标。利用层是“数果”,是数据开放的成效,包括利用促进、利用多样性、成果数量、成果质量、成果价值五个一级指标。007 图 5-1 卫生健康领域开放数林指数评估指标体系008 图 5-2 卫生健康领域开放数林指数评估指标体系0092022 卫生健康领域开放数林省域指数如表 1 所示。山东省的综合表现最优,进入第一等级“A+”;浙江省也表现
6、优异,进入第二等级“A”,其次是四川省、广东省、贵州省、广西壮族自治区、福建省等省域。在单项维度上,山东省在数据层表现最优,进入 A+等级;浙江省在利用层上表现最优,进入 A+等级。表 1 卫生健康领域开放数林指数综合等级(省域)0102022 卫生健康领域开放数林城市指数(前三十)如表 2 所示。青岛市和济南市的综合表现最优,进入第一等级“A+”;深圳市、嘉兴市、上海市、武汉市和滨州市也表现优异,进入第二等级“A”。在单项维度上,嘉兴市在数据层上表现最优,进入 A+等级;上海市、青岛市和深圳市在利用层上表现最优,进入 A+等级。表 2 卫生健康领域开放数林指数综合等级(城市前三十)011各地
7、开放了哪些高容量的卫生健康类数据集?表 3 和表 4 是省本级与城市平台开放的数据容量最高的前 10 个卫生健康领域数据集。总体上,城市平台开放的卫生健康数据集在容量与质量上都高于省本级平台开放的数据。省本级平台开放的高容量数据集主要集中于从业人员执业许可、医疗机构注册登记、药品医疗器械等方面。城市平台开放的高容量数据集主要集中于医保参保人员信息、就医人数、医保药品目录、医保缴费等方面。表 3 省本级平台开放的高容量数据集(前十)012 表 4 城市平台开放的高容量数据集(前十)图 6 南充市开放的药品目录基本信息例如,四川省南充市开放的“药品目录信息”中,详细提供了药品的名称、目录编码、收费
8、等级、使用范围、分类、国药准字号、生产厂家、开始与结束日期等信息,如图 6 所示。013山东省开放的“电子证照-山东省医师执业证”,详细提供了全省范围内具有从业资格的医师基本信息,包含执业机构名称、姓名、性别、职业类别、医师执业范围、注册审批机关名称、资格证书编号、执业证书批准日期等信息,如图 7 所示。图 7 山东省开放的执业医师资格证信息014各地开放了哪些疫情相关数据?新冠疫情发生以来,全国有 7 个省级和 41 个城市级政府数据开放平台开放了 248 个新冠疫情相关数据集,数据容量约 141 万,可分为三种类型:疫情情况数据、疫情防控数据以及社会运行保障数据。图 8 是各类新冠疫情有效
9、数据集总数、数据容量与单个数据集平均容量比较,疫情防控数据的有效数据集总数与总容量最高,疫情情况数据的单个数据集平均容量最高,社会运行保障数据在全国范围内开放的数据集总数与容量都较低。图 8 各类新冠疫情有效数据集总数、数据容量与单个数据集平均容量比较015疫情情况数据:指和疫情情况相关的统计数据、确诊病例数据、病例治疗情况数据等;疫情防控数据:指与疫情防控措施相关的数据,如发热门诊、核酸检测机构等;社会运行保障数据:指疫情期间与地方运行保障相关的交通、超市、菜场、便民设施等数据。表 5 是各地开放的新冠疫情数据集类型。表 5 各地开放的疫情数据集016深圳市、厦门市政府数据开放平台为疫情数据
10、开设了专题栏目,集中提供种类丰富的疫情数据,且更新及时,方便用户查找与获取,如图 9 所示。图 9 深圳市与厦门市疫情数据开放专题栏目017例如,深圳市在 2020 年上半年最早开放了病例逗留场所位置坐标数据集,涉及场所经纬度坐标数据,并在数据集简介中说明了所使用的坐标数据出处,便于用户开发利用,如图 10 所示。图 10 深圳市开放的“新冠肺炎确诊患者逗留场所位置坐标”018青岛市平台在 2020 年上半年开放了新型冠状病毒感染的肺炎确诊患者行程信息“新型冠状病毒感染的肺炎确诊患者行程信息”,该数据集包含三千多名确诊病例的行程信息,字段非常丰富,包含了交通类型、日期、车次、车厢、出发与到达站
11、等数据项,数据容量较大,如图 11 所示。图 11 青岛市于 2022 年开放确诊患者行程数据019深圳市平台及时开放了“便民核酸采样点位置及服务信息”数据,该数据集包含一万条数据核酸采样点数据,包含采样点名称、市区、街道、地址、拥堵状态等 17 个字段,数据容量较大,社会关注度高,如图 12 所示。图 12 深圳市开放的“深圳市便民核酸采样点位置及服务信息”020疫情数据开放之后,产生了哪些利用成果?部分疫情数据开放后被市场和社会进行利用,开发出了服务应用和数据可视化产品,主要用于查询病例与疫情场所信息、查询周边核酸检测点、展示疫情态势与病毒传播链条、为疫情防控提供政策建议等方面。查询周边有
12、无病例与疫情场所开发者在 2020 年上半年就利用深圳市疫情专题开放数据制作了“城市疫情场所地图”,在地图上标注出现疫情的场所,如图 13 所示。市民可以在地图中查询周边区域是否有涉及疫情的场所,以做好出行安排,加强个人防护。图 13 深圳市“城市疫情场所地图”021查询周边有无核酸检测点地图导航类应用开发者利用深圳市核酸检测机构数据制作了“核酸检测地图”,如图 14 所示。市民可以在应用中查询附近的核酸检测点,获取开放时间、排队情况等信息。图 14 高德地图开发的深圳市 核酸检测地图 022展示病毒传播链条有志愿者团队制作了“深圳疫情报告”,通过利用疫情专题数据,对病毒的传播链条、地区分布、
13、年龄分布和疫情态势演变等方面做了可视化展示,便于公众理解,如图 15、图 16 所示。图 15、图 16 志愿者团队开发的数据可视化产品:”深圳疫情报告“023发布研究报告,分析数据提出建议山东省齐鲁大数据研究院发布的研究报告利用公共数据开放平台发布的省内疫情数据,并结合国家卫健委、其他各省卫健委发布的疫情数据进行分析,为疫情防控提出针对性政策建议,如图 17 所示。图 17 山东省齐鲁大数据研究院发布的 新型冠状病毒感染的肺炎疫情数据分析报告024基于信息发布,而非数据开放所开发的应用报告还发现了一些企业与公众利用政府公开发布的信息制作的防疫应用。例如,“高德地图”应用将封控区、管控区与防范
14、区的分布情况展示在地图上,便于社会查询使用;“上海小区疫情速查”小程序可以查询特定小区的病例出现日期与三区划分情况,如图 18 和图 19 所示。然而,这些疫情防控相关应用并未利用到真正的开放数据,而是通过抓取整理各地卫健委等部门公开发布的信息所开发,这种信息大多通过在文字中夹杂数字的形式发布,数据利用者在对这些数据进行分析利用前,需要先将数据从文字中提取出来,加工成结构化、可机读的格式,而无法被直接开发利用,因此这类信息发布形式并不等同于数据开放。图 18 “高德地图”应用展示的疫情防控情况025 图 19 “上海小区疫情速查”小程序可查询三区划分情况026各地政府出台了哪些政策推进卫生健康
15、数据开放?为了推进卫生健康领域的公共数据开放工作,国务院办公厅、国家卫生健康委员会均出台了相关法规政策。在地方层面,山东省、福州市也出台了相关的管理办法对健康医疗数据开放作出规定,济南市还专门对疫情期间的数据开放工作作出了要求,如表 6 所示。表 6 卫生健康领域涉及数据开放内容的法规政策列表027国外开放了哪些疫情数据?自新冠疫情发生以来,面对公众对疫情数据的迫切需求,国外也出现了一些疫情数据开放的典型案例。世界卫生组织(WHO)提供各国 COVID-19 疫情相关数据下载世界卫生组织(WHO)网站(链接:https:/covid19.who.int/data)以 CSV 格式提供全球各国
16、COVID-19 疫情原始数据下载,数据每周更新,并提供了数据采集方式、更新时间、元数据等说明。这些数据包括了自2020 年 1 月以来各国提供的每天新增确诊与死亡病例,最新的累计确诊与死亡病例,以及各国疫苗接种情况等方面的数据。这些数据同时在网站上以空间可视化方式展示,如图 20、图 21 所示。图 20 世界卫生组织网站提供的全球 COVID-19 相关数据集下载028 图 21 世界卫生组织网站提供的全球 COVID-19 感染人数可视化地图美国约翰霍普金斯大学采集与开放 COVID-19 数据约翰霍普金斯大学自 2020 年 1 月新冠病毒大流行开始采集各国以及美国国内各地方疫情相关数
17、据,在新冠病毒资源中心网站(链接:https:/coronavirus.jhu.edu/map.html)上以动态可视化形式展现(如图 22 所示),同时将采集到的原始数据在开源协作网站 GIthub 上开放(链接:https:/coronavirus.jhu.edu/about/how-to-use-our-data),包括确诊病例、死亡病例、疫苗接种、检测数据、美国各州防疫政策追踪等方面的信息,并提供详细说明。图 22 约翰霍普金斯大学新冠病毒资源中心网站029该网站不仅开放了各国的确诊病例数据,还提供了数据集名称命名规则、字段详细说明以及更新频率等元数据信息,如图 23、24 所示。图
18、23 约翰霍普金斯大学开放的部分各国确诊病例数据 图 24 约翰霍普金斯大学对所开放数据提供详细字段与更新频率说明030加拿大国家数据开放平台开放的新冠病毒疫情相关数据加拿大国家数据开放平台(链接:https:/open.canada.ca/en/open-data)开放了种类丰富的新冠病毒疫情相关数据,包括确诊病例、学校疫情、医院确诊病例、疫苗接种、检测机构位置、废水中病毒检测等多方面的数据集。图25是平台上由加拿大公共卫生署(PHAC)提供的确诊病例原始数据,包含疫情开始至今全国每一例确诊病例的情况,如图 25 所示,数据集内容已达十余万条,包含病例编号、性别、日期、是否无症状、症状持续时
19、间、治疗情况等字段、并提供了数据来源机构的链接,以数据字典的形式帮助用户全面了解数据集,如图 26 所示。图 25 加拿大公共卫生署 COVID-19 确诊病例数据031 图 26 平台为确诊病例数据提供数据字典的链接平台还开放了加拿大学校的疫情数据,内容种类丰富,如图 27 所示,在该目录下开放的数据包括因疫情关闭的学校数量、报告员工和学生缺勤的学校、缺勤的教职员工和学生的百分比、学校已确认的学生病例、已确认的工作人员病例、已确认的病例总数等。032 图 27 加拿大平台开放的该国学校疫情数据033图 28 中的数据集提供了医院和 ICU 中新冠病毒阳性患者的百分比数据,包括确诊病例占病人的
20、百分比,ICU 中的新冠重症病例比例等字段。图 28 加拿大平台开放的该国医院确诊病例比较非营利组织开源 COVID-19 数据、图表与源代码如图 29 所示,Our World in Data 是一个由牛津大学的几位研究者共同协作创立的非营利性组织,该组织采集全球新冠病毒相关数据并在网站上(链接:https:/ourworldindata.org/explorers/coronavirus-data-explorer)开放。这些数据、可视化图表与网站源代码都已开源且每天更新,网站每个月全球访问次数超过百万。034 图 29 Our World in Data 网站上开放的 COVID-19
21、数据及其可视化分析 图 30 非营利组织 Our World in Data 在 GitHub 上开放所采集的原始数据该组织开放的新冠肺炎疫情的数据内容丰富(如图 30 所示),详细说明了各数据集采集的来源、字段与更新频率等信息,并提供可直接下载的数 据(链 接:https:/ 年 3 月,为了发挥社会民众的创造潜力,寻求新解决方案以应对新冠疫情的挑战,德国联邦政府资助发起了“#WIRVSVIRUS”黑客松项目(如图 31 所示)。该项目由民众、行业协会、企业与政府部门提出需求,开发者提供解决方案,是世界上规模最大的黑客松项目,超过 28,000 名参与者加入,在 48 小时内共同完成了 15
22、00 多个解决方案的敏捷开发。图 31 德国联邦政府资助的“#WIRVSVIRUS”黑客马拉松项目036该项目由德国联邦政府、企业与公益组织提供资金、数据与科研能力支撑,在卫生健康、危机中的日常生活、危机管理等三个方向下的 12 个主题上开发应用方案,如图 32 所示。图 32 “#WIRVSVIRUS”黑客松项目覆盖的 12 个主题用户数据反哺卫生机构:美国“Outbreaks Near Me”应用“Outbreaks Near Me”应用由哈佛大学波士顿儿童医院的流行病学家和技术行业的志愿者开发。该应用既使用了开放数据,也让用户参与填报数据,以此为基础制作可视化地图,帮助市民和公共卫生机构
23、识别当前和潜在的新冠病毒热点地区。该应用可以按照社区查询新冠感染情况与趋势,如图 33 所示。037 图 33 “Outbreaks Near Me”的可视化地图 图 34 “Outbreaks Near Me”让用户报告健康状况在“Outbreaks Near Me”应用中,用户可以安全和匿名地自我报告感染情况和症状(如图 34 所示)。通常情况下,由于用户及时地报告疾病情况,该应用能够先于地方和国家公共卫生机构获知疫情传播趋势,并报告给相关部门以支撑决策。038利用数据辅助决策:美国“COVID-19 LOCAL”决策者前线指南NTI、约翰霍普金斯大学、耶鲁大学、哈佛大学等机构的流行病专家
24、依据疫情相关开放数据制作了“COVID-19 LOCAL”,为美国以及全球各地的地方官员提供决策指南(如图 35 所示)。该指南涉及如何加强检测、减少传播、保护高危人群、扩大风险沟通和社区参与、分阶段放松管制等方面,为地方政府决策者提供参考。图 35 美国科研机构开发的“COVID-19 LOCAL”决策者前线指南039对卫生健康公共数据开放有哪些建议?在法规政策方面,目前我国各地涉及卫生健康领域数据开放的法规政策还较少,对卫生健康领域数据开放工作的规范和指导作用不足。建议各地对卫生健康领域数据开放的范围、数据动态更新、数据无歧视获取、开放形式、需求提出与回应等方面作出规定;对数据全生命周期安
25、全管理和社会主体权益保护作出要求;明确人员、资金、考核等保障机制内容,以推进卫生健康领域数据的开放与利用。在开放主体和范围方面,目前各地开放主体还较为单一,除政府部门以外,建议进一步开放来自事业单位(如医院、学校、疾控中心)、企业、社会组织等社会主体的数据。目前我国开放的卫生健康数据以行政许可、证照、机构站点、目录、项目信息等静态、统计类数据为主,建议开放更多实时动态数据,如疫情动态数据、门诊挂号数据等。在数据质量方面,目前各地开放的卫生健康数据的容量整体偏低,内容少且更新不及时,建议开放更多细颗粒度的、及时的、可机读的、结构化的数据,使数据利用者不再需要花费大量时间去搜集和整理各种碎片化的、
26、不易于直接利用的数据,从而将更多精力集中于把数据利用好。在数据规范方面,目前各地开放的卫生健康数据所提供的描述说明不够清晰详细,使数据利用者无法全面地理解和利用数据。建议参考国外案例,以数据字典形式,对数据的来源、采集方式、字段格式、更新方式、内容等方面做全面清晰的描述。040 在利用促进方面,目前各地卫生健康领域开展的数据利用促进活动还较少,多以数据利用比赛为主,社会主体参与有限,利用成果也未能有效满足社会需求。建议借鉴国外黑客马拉松形式,政府负责提供数据,让社会主体参与到需求发布、选题设计与应用评价中,从而通过增强社会主体的参与度,提高利用成果和社会需求的匹配度和落地成功率。在成果数量与质量方面,目前各地卫生健康领域产出的有效利用成果数量较少,质量不高。建议以数据采集分析众包的形式,鼓励公民、高校、科研院所等多方参与,以政府数据开放带动社会数据流动,并推动社会数据反哺政府数据,实现政社数据融合与价值共创。只有政府开放更多“能用好用”的高质量卫生健康公共数据,并让众人来用数据,让数据为众人所用,才能真正把数据“用好用活”。
©2010-2024 宁波自信网络信息技术有限公司 版权所有
客服电话:4008-655-100 投诉/维权电话:4009-655-100