1、医疗大数据及相关技术介绍医疗大数据及相关技术介绍翟运开翟运开 博士博士/副教授副教授河南省数字医疗工程技术研究中心河南省数字医疗工程技术研究中心 副主任副主任数字化远程医疗服务河南省工程实验室数字化远程医疗服务河南省工程实验室 副主任副主任郑州大学第一附属医院郑州大学第一附属医院 河南省远程医学中心河南省远程医学中心 主任主任中国卫生信息学会远程医疗信息化专业委员会中国卫生信息学会远程医疗信息化专业委员会 常委常委/秘书长秘书长n郑州大学硕士研究生导师郑州大学硕士研究生导师n河南省五一劳动奖章获得者河南省五一劳动奖章获得者n河南省教学标兵、河南省技术标兵河南省教学标兵、河南省技术标兵n河南省数
2、字医疗工程技术研究中心副主任河南省数字医疗工程技术研究中心副主任n河南省教育系统教学技能竞赛特等奖获得者河南省教育系统教学技能竞赛特等奖获得者n数字化远程医疗服务河南省工程实验室副主任数字化远程医疗服务河南省工程实验室副主任n郑州大学第一附属医院河南省远程医学中心主任郑州大学第一附属医院河南省远程医学中心主任n中国卫生信息学会远程医疗信息化专业委员会常委中国卫生信息学会远程医疗信息化专业委员会常委/秘书长秘书长u教育部科学技术研究重点项目负责人。u河南省重大科技专项课题负责人。u国家科技部科技惠民计划重大专项课题负责人。u参加国家科技部863项目、国家科技支撑项目、国家自然科学基金项目等5项。
3、u获得河南省科技进步奖二等奖、河南省优秀社科成果奖二等奖、河南省自然科学学术奖一等奖等6项。u发表各类学术论文80余篇,出版专著1部,参编教材4部。u取得软件知识产权10项。n医疗信息化与远程医疗、医药电子商务与物流管理、科技创新与管理等。n主要研究方向主要研究方向n主要参与课题主要参与课题n翟运开翟运开 博士博士/副教授副教授Page 3目录大数据时代大数据带来的变革大数据相关技术医疗大数据大数据时代反思Page 41、大数据时代、大数据时代左右未来十年的四大趋势左右未来十年的四大趋势Page 51、大数据时代、大数据时代数据源呈现指数级增长数据源呈现指数级增长IDC(Internation
4、al Data Corporation)预计到2020 年,全球将总共拥有35ZB 的数据量如果把35ZB 的数据全部刻录到容量为9GB 的光盘上,其叠加的高度将达到233 万公里,相当于在地球与月球之间往返三次Page 61、大数据时代、大数据时代大大数据时代到来数据时代到来(1)u2012年月份美国奥巴马政府发布了“大数据研究和发展倡议”(Big data research and development initiative),投资亿以上美元,正式启动“大数据发展计划”u美国政府认为,大数据是“未来的新石油”Page 71、大数据时代、大数据时代大大数据时代到来数据时代到来(2)u大数据
5、是2012年月份的达沃斯世界经济论坛上的主题之一u该次会议还特别针对大数据发布了报告“Big data,big impact:New possibilities for international development”Page 81、大数据时代、大数据时代大大数据时代到来数据时代到来(3)u联合国一个名为“Global Pulse”的倡议项目在2012年月发布报告 Big Data for Development:Challenges&Opportunities u该报告主要阐述大数据时代各国特别是发展中国家在面临数据洪流(data deluge)的情况下所遇到的机遇与挑战Page 91、
6、大数据时代、大数据时代大大数据时代到来数据时代到来(4)u产业结构调整要依靠改革,进退并举设立新兴产业创业创新平台,在新一代移动通信、集成电路、大数据、先进制造、新能源、新材料等方面赶超先进,引领未来产业发展。-李克强政府工作报告2014年3月5日Page 101、大数据时代、大数据时代大大数据数据定义定义u大数据至今尚无确切、统一的定义u麦肯锡(McKinsey)的定义:大数据是指无法在一定时间内用传统数据库软件工具对其内容进行采集、存储、管理和分析的数据集合uIDC 的定义:大数据一般会涉及2 种或2 种以上数据形式。它要收集超过100TB 的数据,并且是高速、实时数据流Page 111、
7、大数据时代、大数据时代大大数据特点数据特点4VVolume海量的数据规模Variety多样的数据类型n nStreamsStreamsn nReal timeReal timen nNear timeNear timen nBatchBatchn nTBTBn nPBPBn nEBEBn nStructuredStructuredn nUnstructuredUnstructuredn nSemi-structuredSemi-structuredn nAll the aboveAll the aboveValueVelocity快速的数据流转巨大的数据价值Page 12目录大数据时代大数据带
8、来的变革大数据相关技术医疗大数据大数据时代反思Page 132、大数据带来的变革、大数据带来的变革u信息技术革命的小周期Page 142、大数据带来的变革、大数据带来的变革新思维新思维nn个体数据的精确性个体数据的精确性个体数据的精确性个体数据的精确性不再重要不再重要不再重要不再重要nn数据就是货币数据就是货币数据就是货币数据就是货币nn数据随时间迅速折数据随时间迅速折数据随时间迅速折数据随时间迅速折旧旧旧旧nn数据是资产数据是资产数据是资产数据是资产nn改变改变改变改变“数据是稀缺数据是稀缺数据是稀缺数据是稀缺资源资源资源资源”的世界观的世界观的世界观的世界观nn数据是原材料数据是原材料数据
9、是原材料数据是原材料nn信息是原油信息是原油信息是原油信息是原油Page 152、大数据带来的变革、大数据带来的变革新方法学新方法学多数据源的整合多数据源的整合多数据源的整合多数据源的整合描述性分析描述性分析描述性分析描述性分析预测性和预测性和预测性和预测性和处处处处方性分析方性分析方性分析方性分析大大大大数据数据数据数据+小算法小算法小算法小算法+上下文上下文上下文上下文+知知知知识积累识积累识积累识积累数据民主化和开放数据数据民主化和开放数据数据民主化和开放数据数据民主化和开放数据数据数据数据数据资产、数据资产、数据资产、数据资产、数据产品和社会化分产品和社会化分产品和社会化分产品和社会化
10、分析服务的货币化析服务的货币化析服务的货币化析服务的货币化数据极大丰富前数据极大丰富前数据极大丰富前数据极大丰富前提下的新分析思提下的新分析思提下的新分析思提下的新分析思维和技术维和技术维和技术维和技术数据市场和数据定价数据市场和数据定价数据市场和数据定价数据市场和数据定价社会化分析服务社会化分析服务社会化分析服务社会化分析服务实时性大于绝对的精确性实时性大于绝对的精确性实时性大于绝对的精确性实时性大于绝对的精确性Page 162、大数据带来的变革、大数据带来的变革实时精准营销实时精准营销u利用大数据能力可以帮助企业获得突破性回报 Page 172、大数据带来的变革、大数据带来的变革实时风险控
11、制实时风险控制u利用大数据能力可以帮助企业进行实时风险控制,如,银行业Page 182、大数据带来的变革、大数据带来的变革安全检测安全检测u将安全检测与大数据融合Page 192、大数据带来的变革、大数据带来的变革医疗大数据医疗大数据Page 20目录大数据时代大数据带来的变革大数据相关技术医疗大数据大数据时代反思Page 21n 成本可承受(economically)的情况下n 通过非常快速(velocity)的采集、发现和分析;在大量化(volumes)、多类别(variety)的数据中提取价值(value)n 分析的数据越全面,分析的结果就越接近于真实n 能够从这些数据中获取新的洞察力,
12、并将其与已知业务的各个环节相融合3、大数据相关技术、大数据相关技术Page 22计算存储数据库网络n单机单机集群文件存储单机设备间连接设备内连接关系型数据库10GE FC IB分布式数据库非关系型数据库块存储10GE SAS IB横向扩展块级虚拟化横向扩展分布式文件系统3、大数据相关技术、大数据相关技术大大数据带来的技术变革数据带来的技术变革Page 233、大数据相关技术、大数据相关技术大大数据系统数据系统u当前大数据系统主要包括:存储、计算、分析等。Page 243、大数据相关技术、大数据相关技术分布式文件系统分布式文件系统u分布式文件系统(Distributed File System)
13、是指文件系统管理的物理存储资源不一定直接连接在本地节点上,而是通过计算机网络与节点相连。分布式文件系统的设计基于客户机/服务器模式。u大数据系统中常用的分布式文件系统为HDFS。Page 253、大数据相关技术、大数据相关技术并行计算并行计算u传统并行计算。拥有多个CPU,计算资源与存储资源分离,数据统一存放、统一读取。对于数据密集型处理,I/O将成为整个系统瓶颈。uMapReduce。由普通PC组成,考虑数据局部性原理,将数据分布至各个节点,处理时,就近读取数据。分组分组聚合聚合X86 服务器X86 服务器Page 263、大数据相关技术、大数据相关技术实时流式计算实时流式计算u实时计算一般
14、都是针对海量数据进行,除了像非实时计算的需求(如计算结果准确)以外,实时计算最重要的一个需求是能够实时响应计算结果,一般要求为秒级。Page 273、大数据相关技术、大数据相关技术数据分析流程数据分析流程确定业务对象确定业务对象数据准备数据准备数据挖掘数据挖掘结果分析结果分析知识的同化知识的同化Page 28l l滥用缩写词滥用缩写词l l数据输入错误数据输入错误l l数据中的内嵌控制信息数据中的内嵌控制信息l l不同的惯用语不同的惯用语l l重复记录重复记录l l丢失值丢失值l l拼写变化拼写变化l l不同的计量单位不同的计量单位l l过时的编码过时的编码l l含有各种噪声含有各种噪声数据污
15、染l l格式标准化格式标准化l l异常数据清除异常数据清除l l错误纠正错误纠正l l重复数据的清除重复数据的清除数据处理大数据预处理技术主要完成对已接收数据的辨析、抽大数据预处理技术主要完成对已接收数据的辨析、抽取、清洗等操作取、清洗等操作目的是将数据按统一的格式提取出来,然后再转化,目的是将数据按统一的格式提取出来,然后再转化,集成,载入数据仓库的工具集成,载入数据仓库的工具 (ETLETL)抽取抽取:因获取的数据可能具有多种结构和类型,:因获取的数据可能具有多种结构和类型,数据抽取过程可以帮助我们将这些复杂的数据数据抽取过程可以帮助我们将这些复杂的数据转化为单一的或者便于处理的构型,以达
16、到快转化为单一的或者便于处理的构型,以达到快速分析处理的目的。速分析处理的目的。清洗清洗:对于大数据,并不全是有价值的,有些:对于大数据,并不全是有价值的,有些数据并不是我们所关心的内容,而另一些数据数据并不是我们所关心的内容,而另一些数据则是完全错误的干扰项。则是完全错误的干扰项。因此要对数据通过过滤因此要对数据通过过滤“去噪去噪”从而提取出有效数据从而提取出有效数据3、大数据相关技术、大数据相关技术大数据预处理技术大数据预处理技术Page 293、大数据相关技术、大数据相关技术大数据分析挖掘大数据分析挖掘技术方法分类根据挖掘任务:分为分类或预测模型发现、数据总结、聚类、关联规则发现、序列模
17、式发现、依赖关系或依赖模型发现、异常和趋势发现等等根据挖掘对象:可分为关系数据库、面向对象数据库、空间数据库、时态数据库、文本数据源、多媒体数据库、异质数据库、遗产数据库以及环球网Web根据挖掘方法:可分为机器学习方法、统计方法、神经网络方法和数据库方法。重点技术数据挖掘算法。分割、集群、孤立点分析还有各种算法让我们精炼数据,挖掘价值。这些算法要能够应付大数据的量,同时还具有很高的处理速度。预测性分析。预测性分析可以让分析师根据图像化分析和数据挖掘的结果做出一些前瞻性判断。语义引擎。人工智能从数据中主动地提取信息。包括机器翻译、情感分析、舆情分析、智能输入、问答系统等。数据质量和数据管理。透过
18、标准化流程和机器对数据进行处理可以确保获得一个预设质量的分析结果。Page 30顾名思义,数据挖掘就是从大量的数据中挖掘出有用的信息数据挖掘技术投入商用的三种基础技术已发展成熟海量数据搜集强大的分布式并行处理技术数据挖掘算法知识发现(KDD):从源数据中发掘模式或联系的方法KDD被用来描述整个数据发掘的过程,包括最开始的制定业务目标到最终的结果分析,而用数据挖掘(DM,Data Mining)来描述使用挖掘算法进行数据挖掘的子过程。数据挖掘所发现的知识有以下四类:广义知识:指类别特征的概括性描述知识关联知识:反应一个事件和其他事件之间依赖或关联的知识分类知识:反应同类事物共同性质的特征性知识和
19、不同事物之间的差异性特征知识预测性知识:根据时间序列型数据,由历史的和当前的数据去推测未来的数据。3、大数据相关技术、大数据相关技术大数据分析挖掘之数据挖掘与知识发现大数据分析挖掘之数据挖掘与知识发现Page 31l l关联规则挖掘:关联规则挖掘:在交易数据、关系数据或其他信息载体中,在交易数据、关系数据或其他信息载体中,查找存在于项目集合或对象集合之间的查找存在于项目集合或对象集合之间的频繁频繁模式、关联、相关性、或因果结构。模式、关联、相关性、或因果结构。l l应用:应用:购物篮分析、交叉销售、产品目录设计、购物篮分析、交叉销售、产品目录设计、loss-leader analysislos
20、s-leader analysis、聚集、分类等。、聚集、分类等。买尿布的客买尿布的客户户二者都买二者都买的客户的客户买啤酒的客户买啤酒的客户结论:买啤酒和尿布的客户,占50%在买啤酒的客户中,67%会买尿布3、大数据相关技术、大数据相关技术大数据分析挖掘之关联分析大数据分析挖掘之关联分析Page 32n 序列模式定义:给定一个由不同序列组成的集合,其中,每个序列由不同的元素按顺序有序排列,每个元素由不同项目组成,同时给定一个用户指定的最小支持度阈值,序列模式挖掘就是找出所有的频繁子序列,即该子序列在序列集中的出现频率不低于用户指定的最小支持度阈值n应用领域:客户购买行为模式预测Web访问模式
21、预测疾病诊断自然灾害预测DNA序列分析工业控制关联解决了大量数据中的“关联”关系问题数据价值中还有非常重要的“顺序”问题,需要依靠序列用户用户时间时间访问网站访问网站AA20:0020:20XX论坛XX购物BBB21:0021:0521:15XX论坛XX新闻XX购物CCC14:0014:2014:21XX论坛XX搜索XX购物DD21:3021:50XX论坛XX视频目前应用最多的是基于“时间”关系的序列访问XX论坛15分钟后,不低于X%的用户会访问XX购物3、大数据相关技术、大数据相关技术大数据分析挖掘之序列模式大数据分析挖掘之序列模式Page 33l l典型应用典型应用信誉证实信誉证实目标市场
22、目标市场医疗诊断医疗诊断性能预测性能预测 预测分类标号(或离散值)预测分类标号(或离散值)根据训练数据集根据训练数据集和和类标号类标号属性,构建模属性,构建模型来型来分类现有数据分类现有数据,并用来,并用来分类新数据分类新数据建立连续函数值模型,比如预测空缺值建立连续函数值模型,比如预测空缺值分类预测比如将客户采用分类方法来判断信用卡发放的目标对象:分类为:关注、不关注经过不断干预训练,得到分类规则:-【年龄(2540)、职业(x,y)、收入(500010000)】-关注由此如果获取到新的“客户信息”,即可判定其属于哪类。此处:指预测算法;而不是广义的预测活动已有10万人的(年龄,性别,血压)
23、数据,建立一个函数来拟合这些数据。预测:一位新来的病人(男,50岁),预测其血压应为X3、大数据相关技术、大数据相关技术大数据分析挖掘之分类、预测大数据分析挖掘之分类、预测Page 34n 将物理或抽象对象的集合分组成为由类似的对象组成的多个类n 同一个簇中的对象有很大的相似性,而不同簇间的对象有很大的相异性把一个给定的数据对象集合分成不同的簇(分簇完全是自动化的)把一个给定的数据对象集合分成不同的簇(分簇完全是自动化的)聚类与分类的不同:聚类是聚类与分类的不同:聚类是无监督分类法无监督分类法,没有预先指定的类别,没有预先指定的类别疾病分析:针对1万冠心病人x个指标记录,自动进行聚类,相似的病
24、人可以进行相似的治疗医疗卫生管理:将医院的规模、诊治水平、工作效率等指标进行聚类分析,以提升管理水平市场销售:帮助市场人员发现客户中的不同群体,然后用这些知识来开展一个目标明确的市场计划;地震研究:根据地质断层的特点把已观察到的地震中心分成不同的类举例3、大数据相关技术、大数据相关技术大数据分析挖掘之聚类大数据分析挖掘之聚类Page 35异常检测是数据挖掘中一个重要方面,用来发现”小的模式”(相对于聚类),即数据集中间显著不同于其它数据的对象。异常的定义:异常是在数据集中与众不同的数据,使人怀疑这些数据并非随机偏差,而是产生于完全不同的机制。异常探测应用电信和信用卡欺骗贷款审批药物研究气象预报
25、客户分类网络入侵检测等药物研究:针对某种药物,有大量动物测试样本,均复合正常分布。对于极少数不符合“分布”的不良反应,却是非常值得研究和关注的。通过对临床不良反应报告系统中的大量数据进行分析,找到各种药品的不良反应进行研究。举例3、大数据相关技术、大数据相关技术大数据分析挖掘之异常探测大数据分析挖掘之异常探测Page 363、大数据相关技术、大数据相关技术技术方案架构技术方案架构应用应用运行环境运行环境n云云计算管理平台计算管理平台nMasterOneMasterOne 监测监测 控制控制 规划规划n运营支撑系统运营支撑系统n云服务门户云服务门户n统一服务认证统一服务认证nSaaSn应用层nP
26、aaSn平台层nIaaS(virtulization)n基础架构层(虚拟化)海量数据分析海量数据分析云数据审计和安全云数据审计和安全云云WebWeb服务开发部署平台服务开发部署平台nIaaS(non-virtualization)n基础架构层(非虚拟化)应用系统标准规划应用系统标准规划应用系统标准规划应用系统标准规划云存储云存储Hadoop大数据应用和管理大数据应用和管理大数据应用和管理大数据应用和管理 云资源运营服务云资源运营服务Page 37目录大数据时代大数据带来的变革大数据相关技术医疗大数据大数据时代反思Page 384、医疗大数据、医疗大数据5大应用领域大应用领域u临床业务(临床决策
27、支持系统、远程病人监控、病人档案分析)u付款/定价(自动化系统、基于卫生经济学和疗效研究的定价计划)u公众健康(快速检测传染病,全面监测疫情)u新的商业模式(临床记录和医疗保险数据集、网络平台和社区)u研发(预测建模、临床实验数据的分析、个性化治疗)Page 394、医疗大数据医疗大数据健康云服务平台健康云服务平台1.预防预防保健保健服务服务亚健康亚健康管理管理保健保健预防预防健康健康教育教育2.医疗服务医疗服务慢行病慢行病医疗医疗亚急性亚急性医疗医疗急性急性医疗医疗3.康复康复及后续服务及后续服务机构机构照护照护小区小区照护照护居家居家照护照护长期长期照护照护4.健康资料健康资料分析分析个人
28、个人健康数据健康数据网络网络化化服务服务1 个人健康个人健康信息信息云云端服务端服务2 医疗医疗机构云端病历存储服务、机构云端病历存储服务、医疗机构云端医护服务医疗机构云端医护服务3 远程医疗健康服务远程医疗健康服务4 对个人健康数据进对个人健康数据进行分析、挖掘行分析、挖掘Page 404、医疗大数据、医疗大数据大数据分析应用于疾病预防大数据分析应用于疾病预防(1)n疾病预防两步走疾病预防两步走n采取措施干预致病因素采取措施干预致病因素n找出高风险致病因素找出高风险致病因素u预防步骤Page 414、医疗大数据、医疗大数据大数据分析应用于疾病预防大数据分析应用于疾病预防(2)n社会结构社会结
29、构n(Social structure)n物质环境物质环境n(Material factors)n劳动环境劳动环境n(Work)n 心理环境心理环境n(Psychological)n社会环境社会环境n(Social environment)n健康行为健康行为n(Health behaviors)n生理病态的变化生理病态的变化n(Pathophysiological changes)n器官损害器官损害(Organ impairment)n 健康健康(Well-being)n罹病罹病(Morbidity)n死亡死亡(Mortality)n脑脑n(Brain)n神经内分泌神经内分泌n与免疫系统与免疫
30、系统n的反应的反应n(Neuroendocrinenand immune nresponse)幼儿期环境幼儿期环境(Early life)遗传因素遗传因素(Genes)文化因素文化因素(Culture)u健康与社会关联Page 424、医疗大数据、医疗大数据大数据分析应用于疾病预防大数据分析应用于疾病预防(3)nSecondary Usen1n分析健康数据已分析健康数据已成为世界趋势成为世界趋势n美国早已在美国早已在20年年前开放全国住院数前开放全国住院数据供研究者使用据供研究者使用n2n分析健康数据有分析健康数据有助于研究新的治疗助于研究新的治疗方式、疾病诊断、方式、疾病诊断、药物副作用、疾
31、病药物副作用、疾病间的关联性等间的关联性等n新的治疗方式新的治疗方式n3n若没有完整开放若没有完整开放健康数据将健康数据将严重损严重损害广大病人之权益害广大病人之权益n病人权益病人权益u健康数据价值Page 434、医疗大数据、医疗大数据大数据分析应用于疾病预防大数据分析应用于疾病预防(4)n存活率存活率追踪追踪n就就诊率追踪率追踪n防治防治(疫疫)效益效益追踪追踪n族群族群健康追踪健康追踪n健康数据分析与社会健康数据分析与社会的的联系系社会社会经济、劳动条件条件、幼儿期、幼儿期、遗传、文化等、文化等对健康的影响健康的影响n健康数据分析与健康数据分析与卫生生政策政策联系系医医疗、保健、防疫、保
32、健、防疫、全民健保政策全民健保政策实施成效施成效的衡量、的衡量、评估与估与建建议族群族群追踪追踪应用用数据数据整合整合应用用u健康数据应用Page 444、医疗大数据、医疗大数据大数据分析应用于疾病预防大数据分析应用于疾病预防(5)DataDataData Data Warehouse in Warehouse in Value-added Management Value-added Management and Development Centerand Development CenterOLTPOLTPOLAPOLAPlabsproceduresgenderclaimsprovider
33、agediagnosisdepartmentvisit dateadmissionsWhat diseases are treated most efficiently?How should I budget for next year?What adjustments should be made to maximize profit?InformationInformationKnowledgeKnowledgeWisdomWisdomWhat departments were filing the most claims?That were paid?u使用使用大数据大数据平台平台提供健
34、康信息服务提供健康信息服务Page 454、医疗大数据、医疗大数据健康数据应用场景健康数据应用场景PeopleHospitalHealth Examination CenterHealth Management InstitutionHospitalHealth Examination CenterHealth Management InstitutionNursing Care InstitutionDiet RecordExercise RecordBP,BS RecordOthersPublic Health Knowledge PortalPersonal HealthData Ban
35、kNursing Care InstitutionHealth Information Exchange PlatformHealth Information Exchange PlatformHealth Information Exchange PlatformPage 46目录大数据简介大数据相关技术大数据挖掘医疗大数据大数据时代反思Page 475、大数据时代反思、大数据时代反思反思反思u难点不在制造新硬件 而是找到什么数据有价值u过去两年,我们生产的数据,占到全部人类所有数据总和的90%。也就是,我们古人生产的数据还不到10%。u尽管数据很多,各行各业都在说自己生产了很多很有价值的数
36、据,但在李彦宏看来,好多都是没有价值的数据,不是我们真正想要的数据。Page 485、大数据时代反思、大数据时代反思展望展望u云计算给我国工业与信息业带来了新一轮创新和前所未有的发展机遇,目前,在许多领域的实践都取得了成效,展望未来,将在更广泛的领域得以应用。u医疗行业展望:目前,医疗系统中的IT基础设施大多是分散且隔离的,由不同的医疗机构或不同的部门单独维护和使用,而大数据平台可以将这些分散的系统整合在一起,形成统一的医疗信息基础设施,提供类型多样的健康管理应用,为每个患者制定个性化医疗保健方案。在生物医学和药物研究中会涉及大量的数据处理和计算,节约资源、便捷管理的特点将会提高这些领域的研究效率。Page 49关注大数据技术研究关注大数据技术研究发现数据价值发现数据价值谢谢谢谢
©2010-2024 宁波自信网络信息技术有限公司 版权所有
客服电话:4008-655-100 投诉/维权电话:4009-655-100