1、浅析中医药科学数据中心现状与发展【关键词】 中医药;科学数据 科学数据是人类社会科技活动所产生的基本数据、资料,以及按照不同需求而系统加工的数据产品和相关信息,具有明显的潜在开发价值,并在应用过程中得以增值,是信息时代最基本、最活跃、影响面最宽的科技资源。拥有可靠、系统和积累丰厚的科学数据,就有可能把握 美国政府自20世纪90年代以来,在科学数据方面实行了“国有科学数据完全与开放共享国策”,联邦财政设立专项资金连续支持数据中心群的建设,利用法律手段保障其信息畅通。据有关资料统计,在数据共享国策实施的10年间,美国平均年经济增长率后5年比前5年增长了%,其中%是由于数据和信息的流通和应用所产生的
2、1。 目前,我国由各行业部门产生和积累的海量科学数据,得不到有效共享和利用,制约了我国科技创新和社会经济发展的进程。在这种时代背景下,面对中国社会和科技发展的需要,2002年,我国开始实施“国家科学数据共享工程”。科学数据共享工程是在国家科技基础条件平台统一规划、政策调控和相应法规的保障下,应用现代信息技术,整合离散的科学数据资源,构建面向全社会的网络化、智能化的管理与共享服务体系,实现对科学数据资源的规范化管理及其高效利用,从而为科技进步与创新、政府决策、经济增长、社会发展和国家安全提供科学数据资源的强有力支撑。它具有公益性、基础性、持续性和基于现代信息技术的数据内容服务的明显特征,是国家科
3、技基础条件平台的重要组成部分,是国家创新体系中急需发展的现代科技基础设施之一。 国家科学数据共享工程建设的指导思想是围绕全面提升国家科技创新能力,实现推进现代化建设的国家目标,以科技创新为动力,以需求为导向,以政策、法规为保障,充分发挥国家长期布局的数据采集系统和各类国家科技计划项目产生与积累的科学数据资源优势,构建面向全社会的共享服务体系,实现科学数据资源的规范化管理与高效利用。以共享促进应用,最大限度地发挥科学数据的潜在价值,强化对科技进步与创新的支撑能力。 医药卫生科学数据共享网在国家科技部统一部署下,由四个主管部门联合推荐,六大科研院所联合申报,2003年在科技部立项,2004年4月正
4、式启动。其总体目标是建立一个物理上分布,逻辑上高度统一的医药卫生科学数据管理与共享服务系统,为政府卫生决策、科技创新、医疗保健、人才培养、百姓健康和企业发展提供数据共享和信息服务。科学数据中心是数据集汇交、储存和提供数据共享服务的物理中心,到2006年已经启动的4个数据中心和依托单位分别是:基础医学科学数据中心中国医学科学院基础所、临床医学科学数据中心解放军总医院和北京协和医院、预防医学科学数据中心中国疾病预防控制中心、中医药科学数据中心中国中医科学院。2 中医药科学数据中心的现状 中医药科学数据中心是国家医药卫生科学数据共享网的成员单位之一。自科学数据共享工程实施以来,围绕构建国家科学数据管
5、理与共享服务体系、制定和完善科学数据共享政策、法规与标准体系、增强中医药科学数据资源积累,促进中医药科学数据增值的整合体系的目标,坚持“统一领导,统筹规划,统一标准”的指导方针,确定以中医药科学数据资源的规划为出发点,将资源的组织、分析、获取、调度、整合和共享服务工作贯彻工程建设始末。 顶层设计 以医学卫生科学数据共享网为依托,在中医药科学数据汇交平台基础上研制中医药科学数据共建平台与中医药科学数据规范标准平台,整合与建立中医药科学数据主体数据库群,形成中医药科学数据共享平台,提供优质的中医药科学数据服务。全体系需要科学数据共建与共享的运行机制与管理;全工程需要信息网格的技术支撑。见图1。 中
6、心建设 按照科学数据共享工程的建设规则,由中国中医科学院中医药信息研究所承担中医药科学数据共享与服务的物理中心。依托国家中医药管理局中医药文献检索中心机构基础与国际互联网,在全国选择与建立了若干个分中心,形成了中医药科学数据建设虚拟专业队伍。到2006年底,由全国中医药院校与研究单位组建了20余家分中心,专业人员约300余人。物理中心与虚拟中心共同承担了中医药科学数据中心的建设。 建立快速高效数据集成平台 为适应中医药信息化、数字化的需求,中医药主体数据库群组必须向多类型、多结构、快速信息存储与高度集成方向发展,最终形成全方位的系统工程。在不同优劣硬件设备上,利用同样的软硬件环境、建立统一的加
7、工界面、采用一致的加工方式,整合来源统一,这样即保证数据信息的正确统一,又大幅减少重复劳动、节约信息采集费用,实现高速率的数据集成。所有成员单位基于统一平台,实现无障碍的所有数据信息交流与共享,信息及时存储与获得更新;数据加工采用统一格式,避免管理方式多种多样,节约大量的信息格式转换费用;所有参建单位基于相同的信息质量控制平台进行项目管理,极大缩短参建各方的技术水平差距,提高整个项目的管理水平,同时降低对管理人员的素质要求。利用数据共建平台,实现了中医药科学数据的快速集成。 建立主体数据库 主体数据库是中医药科学数据中心的基本任务,是提供权威、可靠的数据内容服务的基本单元。它是通过整合集成科学
8、数据资源和整合改造已有数据库而构成的。中医药数据库资源的主体数据库分为中药数据体系、中医数据体系、针灸数据体系与古代文献数据体系。目前,中医药科学数据中心数据存储量约120 G,现代文献数据库收集年代跨越50年。 标准和规范研究 规范化、标准化的建设是科学数据共享的前提,不仅可以保证工程建设伊始就能够自上而下地遵循规范化途径有序进行,还为科学数据的高度共享及其与其它应用系统的高速通信、联网创造必要的条件。中医药科学数据中心研制中医药语言系统,集成中医药术语近11万条;修订了中医药主题词表8千条;研制了共建平台固化的标准词表29张。同时,制定了中医药卫生科学数据共享元数据标准与中医药科学数据分类
9、标准。 数据发布与共享体系 以多个大型数据库群与数据检索、统计能力为支撑,利用先进的计算机技术,构造了一个能够在Internet环境下融合各个自治、异质异构的中医药数据资源的,并能为用户提供一个统一的全局范围内数据检索环境的信息共享平台,以支持数据库资源的共享、综合利用与开发。支持数据库共享的主要数据为中药、针灸、突发公共卫生、古代文献等主体数据库群。其中中药数据占本领域数据量的80%以上。中医药科学数据中心可以实现的服务功能包括:对分布式数据库和数据集的统一管理、目录服务、数据服务、延伸服务等。 数据管理是利用分布式数据库技术、数据仓库管理技术、元数据技术和网络技术,建立以分布式为主、集成式
10、为辅的数据管理系统,开展数据汇交、整理加工、存储和数据更新,实现对科学数据资源的有效管理。 目录服务是以元数据为核心的目录查询,它将通过元数据标准的核心元素将信息以动态分类的形式展现给用户。用户通过浏览门户网站提供的元数据摘要可以快速确定自己所需的信息范围,然后要求门户网站在该范围内进一步搜索。 数据服务是在目录服务基础上的数据内容服务,所提供的数据类型是多样的,能够对各种空间、非空间数据以及结构化、非结构化数据提供浏览、查询、下载和脱机服务等多种功能。 延伸服务是为用户提供一系列工具,以便在众多来源的海量数据中进行数据搜索、多源数据整合、数据挖掘,及时发现所需要的知识,提高科学数据的利用率。
11、针对自身的优势,构建其有特色的服务体系,例如专题查询、统计分析等等。 共享策略与运行机制 本着共建共享的原则,建立中医药科技数据的分布与集中管理方式,合理划分共享数据的有偿与无偿。逐步制定数据开发与管理分级制度。 3 中医药科学数据中心的发展 当代科学技术突破频频诞生于学科交叉的前沿领域表明,科学技术向着多学科综合交叉的方向发展,而学科交叉与渗透需要多学科领域的知识、信息和数据的支持。在工程项目深入发展与技术需求强烈时,提出了若干值得思考的问题。 中医药科学数据中心的功能扩充 中医药科学数据中心的定位决定了应该具备的功能。国家共享工程基础目标是现有的数据资源尽可能的实现共享与利用。但是,随着中
12、医药信息资源的累积与增加,数据需求从量变发展到质变;从单纯的数据发现转变为知识发现,从数据应用到创新集成应用;这给数据中心发展提出了新的要求,特别是国家“十一五”、“973”等重大科学研究项目,对于知识发现与挖掘的需求更加强烈。这种需求变更不仅是中医药科学数据中心面临的问题,而且是具有一定代表性的问题。 科学数据共享中心功能细化为三个方面:一为资源整合管理,包括数据资源调查、汇交整合与共建管理;二为技术研究,包括信息标准与语言系统研究、数据分析与挖掘研究、计算机技术研究;三为服务管理,包括数据利用与服务研究、网络平台服务以及共享分级研究。 中医药科学数据中心的工程技术 中医药科学数据中心的功能
13、实现,离不开工程技术的支撑,主要是计算机技术与信息工程技术,从数据资源整合与共建,到数据存储、服务、传送的全过程,需要完整的、流畅的工程技术保障。领域专业人员与专职计算机人员的紧密结合是工程实施的必要保证。 优质品牌数据库的建立 当越来越多的系统建立起来的时候,可能并不是越多越好,反而会导致信息重叠、资源浪费、结果不统一,甚至相互矛盾。 建立数据库评价体系,科学评价数据库与数据质量,促进优质品牌数据库的建立,是解决数据有效应用的关键。提倡共建与联盟也是科学数据合理分布、有效管理的方法。中医药数据中心需要建立优质数据库与优质数据质量的评价方法与机制。 在建立优质数据库的评价体系的同时,应该建立科
14、学数据共享平台评价体系,包括从共建、共享、服务、应用、发展等多方面进行科学评价。科学数据汇交机制 科学实验与科学研究的有效数据汇交是一个大问题,需要依靠政府与制度的保障,同时也需要科学数据中心对科学数据有效评价与认定。科学实验数据汇交与提交级别的认定、不同研究专业提交数据的具体原则,都是数据中心需要认真研究的,需要最大限度保障数据提交,又严格审查数据质量,有效筛选。 促进全球科学数据共享 空间因素对信息资源共享活动的根本制约,诱发了人们利用信息资源观念的深刻变革,标志着中医药信息资源共享建设时代到来。中医药科学数据的共享目标与共享范围的设定直接影响共享的分级。在保证我国科研人员充分利用科学数据的同时,也为全球科学数据共享做出贡献,需要建立一种崭新的共享管理理念。 【参考文献】 1 中国科学技术信息研究所.美国国有科学数据的“完全与开放”共享国策EB/OL.http:/,2002-08-20. 李安虎,周玉斌,刘海行,等.基于WebGIS的海洋科学数据共享平台的分析与设计J.海洋科学进展,2004,(1):85