1、第5章医学信息分析与决策支持与大数据处理1大家好本章主要内容l l医医学学信信息息与与决决策策支支持持l l数数据据挖挖掘掘与与关关联联规规则则l l层层次次分分析析方方法法与与医医药药方方案案选选择择l l马马尔尔科科夫夫模模型型与与应应用用l l数数据据仓仓库库与与决决策策支支持持系系统统l l大大数数据据概概念念l l大大数数据据处处理理方方法法l l医医疗疗大大数数据据应应用用2大家好阅阅读读书书目目l l崔雷.医学数据挖掘.高等教育出版社l l涂子佩.大数据.广西师范大学出版社l l赵刚.大数据技术与应用实践指南.电子工业出版社l l李雄飞等.数据挖掘与知识发现(第2版).高等教育出
2、版社l l周怡.医学信息决策与支持系统.人民卫生出版社3大家好术语概念l数据、信息、知识?“1.85”是个数字奥巴马身高1.85大多数黑人男性的升高超过1.854大家好数据、信息和知识的区别与联系知识数据数据价值数据规模信息5大家好纽约警察-杰克.梅普尔的传奇数据驱动管理除了上帝,任何人都要用数据说话。-爱德华.戴明6大家好图灵奖、诺经济学奖、图灵奖、诺经济学奖、美心理学会终身成就奖美心理学会终身成就奖人类理性是有限的,人类理性是有限的,人类理性是有限的,人类理性是有限的,所有决策都是基于有所有决策都是基于有所有决策都是基于有所有决策都是基于有限理性的结果,如果限理性的结果,如果限理性的结果,
3、如果限理性的结果,如果能利用存储在计算机能利用存储在计算机能利用存储在计算机能利用存储在计算机里的信息来辅助决策,里的信息来辅助决策,里的信息来辅助决策,里的信息来辅助决策,人类理性的范围将扩人类理性的范围将扩人类理性的范围将扩人类理性的范围将扩大,决策的质量就能大,决策的质量就能大,决策的质量就能大,决策的质量就能提高。提高。提高。提高。决策支持决策支持决策支持决策支持商务智能商务智能商务智能商务智能7大家好医学信息与决策支持医学信息与决策支持l医学信息决策面临一些挑战l医学决策信息的不完全性l传输与存储过程的失真和错误l医学决策信息的不确定性。如SGPT升高l医学决策信息的时效性。朱令事件
4、l医学决策信息的扩散性。SARSl医疗卫生大数据环境。8大家好医学信息与决策支持过程医学信息与决策支持过程l临床决策过程?l决策支持l是指使用各种逻辑规则和数据处理方法,通过对低层次的数据事实关联关系的分析与合并,将其转换成高层次的、数量少的、体现系统根本特征和发展方向的知识,以辅助决策者进行决策。l第一阶段:计算机辅助信息分析(ComputerAidedInformationAnalysis,CAIA)。l人的主观能动性仍是信息分析工作的主导l第二阶段:各种类型的决策支持系统l第三阶段:新型的临床决策支持系统(CDSS)。9大家好医学信息决策的分类医学信息决策的分类l按决策的约束条件进行分类
5、l不确定型:在缺乏足够信息的条件下所得到的实际值和期望值产生了某些偏差,其结果无法用概率分布规律来描述l确定型:已知某种自然状态必然会发生l风险型:需要进行风险值的判断,虽然不知道哪种自然状态在今后发生,但各种可能自然状态在今后发生的概率可以知道。其风险是由于随机的原因而造成的实际值和期望值的差异,它的结果可以用概率分布规律来描述10大家好医学信息决策的分类医学信息决策的分类(续)(续)l按决策的目标进行分类l单目标决策:病人只要求治疗费用最少l多目标决策:决策目标若包含了治疗彻底性、治愈时间、费用和痛苦程度等多个方面的问题就是多目标决策。l按其他的方法进行分类的决策种类l决策的影响程度和重要
6、程度:战略决策和战术决策l按决策的主体不同:个人决策和集体决策;l按决策的动态性:静态决策和动态决策;l按决策问题的量化程度:定性决策和定量决策等。11大家好不确定型决策分析不确定型决策分析l案例案例5.1 12大家好不确定型决策分析不确定型决策分析(续)(续)1.乐观决策准则:各方案可能出现的结果情况不明时,采取好中取好的乐观态度三个方案的最大收益值分别是800万元、600万元和300万元,根据乐观准则,方案A1被选中,即生产复方丹参滴丸。113大家好不确定型决策分析不确定型决策分析(续)(续)2悲观决策准则三个方案的最小收益值分别是-250万元、-200万元和50万元,根据悲观准则,方案A
7、3被选中,即生产藿香正气滴丸。14大家好不确定型决策分析不确定型决策分析(续)(续)3折中决策准则原理:决策者首先确定一个乐观系数,01,则不乐观系数1-;然后分别把乐观系数和不乐观系数乘上各方案的最大收益和最小收益,把两个积相加,得各个方案的期望收益;以期望收益最大的那个方案为实施方案。例如:取=0.6,得折中收益为380万元15大家好不确定型决策分析不确定型决策分析(续)(续)4后悔值决策准则:所谓后悔值就是在同一种自然状态下各种行动方案中最大的损益值(理想值)与可能采用的行动方案的损益值之差。原理:针对每个状态先找出所有方案的最大后悔值,然后从各方案最大后悔值中找出最小值,与最小后悔值相
8、对应的方案即认为最优方案。方案A1-A3的最小悔值是250万元,故选择方案A2。16大家好不确定型决策分析不确定型决策分析(续)(续)5等概率决策准则:假定各个自然状态的发生概率相等,然后求各行动方案的期望收益值,具有最大期望收益值的方案,即最优方案。等概率决策值计算:生产复方丹参滴丸(A1)的收益=(800+320-250)/3=290;生产柴胡滴丸(A2)的收益=(600+300-200)/3=233;生产藿香正气滴丸(A3)的收益=(300+150+50)/3=16717大家好本章主要内容l l医医学学信信息息与与决决策策支支持持l l数数据据挖挖掘掘与与关关联联规规则则l l大大数数据
9、据概概念念l l层层次次分分析析方方法法与与医医药药方方案案选选择择(了了解解)l l马马尔尔科科夫夫模模型型与与应应用用(了了解解)l l数数据据仓仓库库与与决决策策支支持持系系统统l l大大数数据据处处理理方方法法l l医医疗疗大大数数据据应应用用18大家好数据挖掘的发展动力数据挖掘的发展动力需要是发明之母需要是发明之母u数据爆炸但知识贫乏数据爆炸但知识贫乏u全球每秒全球每秒290290万份电子邮件、每秒亚马逊产生万份电子邮件、每秒亚马逊产生72.972.9笔订单,每分钟笔订单,每分钟2020个小时视屏上传到个小时视屏上传到YouTube,GoogleYouTube,Google每天处理每
10、天处理24PB24PB数据;淘宝有数据;淘宝有6 6亿注亿注册会员,在线商品超过册会员,在线商品超过9 9亿,每天交易超过数千亿。亿,每天交易超过数千亿。u自动数据收集工具和成熟的数据库技术使得大量自动数据收集工具和成熟的数据库技术使得大量的数据被收集,存储在数据库、数据仓库或其他的数据被收集,存储在数据库、数据仓库或其他信息库中以待分析。信息库中以待分析。u这些数据当中大量有用的知识被淹没其中。这些数据当中大量有用的知识被淹没其中。19大家好解决方法-数据仓库和数据挖掘u数据仓库(ataWarehouse)和在线分析处理(OLAP)u在大量的数据中挖掘感兴趣的知识(规则、规律、模式、约束)u
11、支持数据挖掘技术的基础支持数据挖掘技术的基础 -海量数据搜集海量数据搜集-强大的多处理器计算机强大的多处理器计算机-数据挖掘算法数据挖掘算法20大家好数据仓库数据仓库是一个数据仓库是一个数据仓库是一个数据仓库是一个面向主题的,集面向主题的,集面向主题的,集面向主题的,集成的,相对稳定成的,相对稳定成的,相对稳定成的,相对稳定的,反映历史变的,反映历史变的,反映历史变的,反映历史变化的数据集合,化的数据集合,化的数据集合,化的数据集合,用于支持管理中用于支持管理中用于支持管理中用于支持管理中的决策支持。的决策支持。的决策支持。的决策支持。21大家好数据仓库体系结构22大家好数据仓库体系结构l数据
12、源:数据源:通常包括企业内部信息和外部信息。内通常包括企业内部信息和外部信息。内部信息包括存放于部信息包括存放于RDBMSRDBMS中的各种业务处理数据和中的各种业务处理数据和各类文档数据。外部信息包括各类法律法规、市场各类文档数据。外部信息包括各类法律法规、市场信息和竞争对手的信息等等。信息和竞争对手的信息等等。l数据的存储与管理:数据的存储与管理:决定采用什么产品和技术决定采用什么产品和技术来建立数据仓库的核心,则需要从数据仓库的技术来建立数据仓库的核心,则需要从数据仓库的技术特点着手分析。针对现有各业务系统的数据,进行特点着手分析。针对现有各业务系统的数据,进行抽取、清理,并有效集成,按
13、照主题进行组织。数抽取、清理,并有效集成,按照主题进行组织。数据仓库按照数据的覆盖范围可以分为企业级数据仓据仓库按照数据的覆盖范围可以分为企业级数据仓库和部门级数据仓库(通常称为数据集市)。库和部门级数据仓库(通常称为数据集市)。23大家好数据仓库体系结构(续)lOLAP(On Line Analysis Processing)对分析需要的数据进行有效集成,按多维模型予以对分析需要的数据进行有效集成,按多维模型予以组织,以便进行多角度、多层次的分析,并发现趋组织,以便进行多角度、多层次的分析,并发现趋势。势。lROLAPROLAP(关系型在线分析处理),基本数据和聚合数(关系型在线分析处理),
14、基本数据和聚合数据均存放在据均存放在RDBMSRDBMS之中;之中;lMOLAPMOLAP(多维在线分析处理)和(多维在线分析处理)和HOLAPHOLAP(混合型线上(混合型线上分析处理),基本数据和聚合数据均存放于多维数分析处理),基本数据和聚合数据均存放于多维数据库中;据库中;lHOLAPHOLAP基本数据存放于基本数据存放于RDBMSRDBMS之中,聚合数据存放于之中,聚合数据存放于多维数据库中。多维数据库中。24大家好数据仓库体系结构(续)l前前端端工工具具各种报表工具、查询工具、数据分析工具、数据挖掘工具以及各种基于数据仓库或数据集市的应用开发工具。l数据分析工具主要针对OLAP服务
15、器l报表工具、数据挖掘工具主要针对数据仓库。25大家好数据仓库特点l l数数数数据据据据仓仓仓仓库库库库是是是是面面面面向向向向主主主主题题题题的的的的。数数数数据据据据库库库库的的的的数数数数据据据据组组组组织织织织面面面面向向向向事事事事务务务务处处处处理理理理任任任任务务务务,而而而而数数数数据据据据仓仓仓仓库库库库中中中中的的的的数数数数据据据据是是是是按按按按照照照照一一一一定定定定的的的的主主主主题题题题域域域域进进进进行行行行组组组组织织织织。主主主主题题题题是是是是指指指指用用用用户户户户使使使使用用用用数数数数据据据据仓仓仓仓库库库库进进进进行行行行决决决决策策策策时时时时所
16、所所所关关关关心心心心的的的的重重重重点点点点方方方方面面面面,一一一一个个个个主主主主题题题题通通通通常常常常与与与与多多多多个个个个操操操操作作作作型型型型信信信信息息息息系系系系统统统统相相相相关关关关。l l数数数数据据据据仓仓仓仓库库库库是是是是集集集集成成成成的的的的。数数数数据据据据仓仓仓仓库库库库的的的的数数数数据据据据有有有有来来来来自自自自于于于于分分分分散散散散的的的的操操操操作作作作型型型型数数数数据据据据,将将将将所所所所需需需需数数数数据据据据从从从从原原原原来来来来的的的的数数数数据据据据中中中中抽抽抽抽取取取取出出出出来来来来,进进进进行行行行加加加加工工工工与
17、与与与集集集集成成成成,转转转转换换换换统统统统一一一一与与与与综综综综合合合合之之之之后后后后才才才才能能能能进进进进入入入入数数数数据据据据仓仓仓仓库库库库;26大家好数据仓库特点(续)l l数数数数据据据据仓仓仓仓库库库库是是是是随随随随时时时时间间间间而而而而变变变变化化化化的的的的。不不不不断断断断跟跟跟跟踪踪踪踪事事事事务务务务处处处处理理理理系系系系统统统统中中中中,数数数数据据据据仓仓仓仓库库库库会会会会把把把把业业业业务务务务系系系系统统统统数数数数据据据据库库库库中中中中变变变变化化化化数数数数据据据据追追追追加加加加进进进进去去去去。传传传传统统统统的的的的关关关关系系系
18、系数数数数据据据据库库库库系系系系统统统统比比比比较较较较适适适适合合合合处处处处理理理理格格格格式式式式化化化化的的的的数数数数据据据据,能能能能够够够够较较较较好好好好的的的的满满满满足足足足商商商商业业业业商商商商务务务务处处处处理理理理的的的的需需需需求求求求。稳稳稳稳定定定定的的的的数数数数据据据据以以以以只只只只读读读读格格格格式式式式保保保保存存存存,且且且且不不不不随随随随时时时时间间间间改改改改变变变变。l l数数数数据据据据仓仓仓仓库库库库是是是是稳稳稳稳定定定定的的的的(非非非非易易易易失失失失性性性性的的的的)。其其其其数数数数据据据据以以以以物物物物理理理理分分分分离
19、离离离的的的的方方方方式式式式存存存存储储储储,决决决决策策策策人人人人员员员员只只只只进进进进行行行行数数数数据据据据查查查查询询询询,而而而而不不不不进进进进行行行行数数数数据据据据修修修修改改改改。数数数数据据据据仓仓仓仓库库库库只只只只需需需需要要要要两两两两类类类类操操操操作作作作:数数数数据据据据的的的的初初初初始始始始化化化化装装装装入入入入和和和和数数数数据据据据访访访访问问问问27大家好多维数据模型l数据立方体以两维或多维来描述或分类数据,维类似关系数据库的属性或字段。三维立方体呈现。l维:是人们观察事物、计算数据的特定角度。例如,死因监测,“地区”、“时间”、“性别”、“死
20、亡原因”等构成四维数据模型。l事实:多维立方体是面向主题的,主题有事实来表示。例如主题死因分析,则死亡人数就是事实。28大家好数据立方体结构29大家好30大家好下钻下钻:一个维度可以下钻细分上卷上卷:汇总31大家好数据挖掘:数据中搜索知识(模式)知识32大家好数据挖掘数据挖掘演变过程数据挖掘演变过程33大家好数据挖掘与知识发现基本概念数据挖掘(从数据中发现知识)数据挖掘(DM):从大量的数据大量的数据中正规地发现有效的、新颖的、潜在有用的,最终可被读懂的模式的过程,简单的说就是从大量数据中提取或“挖掘”知识。医学数据挖掘:是针对医学方面的数据仓库进行挖掘知识发现:知识发现(KDD)包括数据清理
21、、数据集成、数据选择、数据变换、数据挖掘、模式评估、知识表示等步骤有人把数据挖掘视为数据中的知识发现或KDD同义词,另一些人将其视为知识发现的一个基本步骤。34大家好数据挖掘:多学科的融合DataMining数据库技术统计学机器学习模式识别算法其他学科可视化35大家好数据挖掘和知识发现的基本步骤数据挖掘和知识发现的基本步骤数据库目标数据已处理数据已转换数据模式趋势知识选择处理转换数据挖掘解释评价36大家好数据挖掘和知识发现的基本步骤(续)l选择:选择:根据某种标准选择数据l处理:处理:包括清除和充实l转换:转换:删除丢失重要内容的记录,将数据分类、格式变换等l数据挖掘:数据挖掘:运用工具或算法
22、,在数据中发现模式和规律l解释评价:解释评价:将发现的模式解释为可用于决策的知识37大家好数据挖掘:数据库中的知识挖掘(数据挖掘:数据库中的知识挖掘(KDD)l数据挖掘知识发现过程的核心数据清理与集成数据集数据仓库任务相关数据选择数据挖掘模式评估模式38大家好知识发现和数据挖掘的算法l数据挖掘算法由3部分组成:模型表达、模型评价和检索方法。l关联规则。关联规则。两个或多个变量之间存在某种规律性,称为关联。如超市中顾客买可乐和玉米片的相关性。l分类或者特征提取。分类或者特征提取。如检查特定记录并描述第一类记录的特点。如信用分析。l序列模式。序列模式。注重在一定时间段内发生的购买事件。如买电视和摄
23、像机序列。l聚类分析。聚类分析。将数据库中的记录分成子类。可用统计学方法和神经网络等非监督性符号归纳方法实现数据聚类。44大家好常用的数据挖掘方法l关联规则与关联分析l聚类分析l决策树l人工神经网络l遗传算法l粗糙集理论47大家好5.2 关联规则与关联分析关联规则与关联分析l关联规则的定义l关联规则主要反映了事物之间的关联性。在大量的看似没有任何关系的数据中,发现数据中存在的关联关系,分析事物之间的关联性。l对反映同一事物属性的一条记录,若其具有特征属性A的同时,也具有属性B,则称特征属性A和B是关联的。若A和B关联:A B。A可以表示为若干属性同时成立,逻辑与的关系,即:(A 1 A 2 A
24、 3 A 4 A k)Bl购物篮分析l生物医学:某种疾病可能同时呈现集中症状,则几种症状就表现出关联性。(如眼病,眼轴远视、和散光)48大家好关联规则的原理关联规则的原理l49大家好关联规则的原理关联规则的原理(续)(续)l50大家好关联规则的原理关联规则的原理(续)(续)l51大家好关联规则的原理关联规则的原理(续)(续)l52大家好眼科诊疗数据53大家好计算关联规则支持度l54大家好关联规则的原理关联规则的原理(续)(续)l55大家好眼科诊疗数据56大家好计算关联规则置信度l57大家好关联规则的原理关联规则的原理(续)(续)定义定义5.7项集的频度、最小支持度阈值和频繁项集的频度、最小支持
25、度阈值和频繁项集。项集。某项集的出现频度是包含该项集的事务数,简称项集的频度。如果某项集的出现频度不够多时,可以认为该项集中项间的关联规则不够有用。只有当项集的频度大于预先设定的某个频度,该规则才有用。因此,在关联分析中,通常预先设定最小支持度阈值(min_sup)。如果项集A的支持度大于或等于预先设定的最小支持度阈值,则称该项集满足最小支持度阈值,称项集A为频繁项集。频繁k项集的集合通常记为Lk。58大家好关联规则的原理关联规则的原理(续)(续)l定义定义5.8最小置信度阈值。最小置信度阈值。同样,在关联分析中,也需要预先设定最小置信度阈值(min_conf)。如果某关联规则的置信度大于或等
26、于预先设定的最小置信度阈值,则称该规则满足最小置信度阈值。59大家好关联规则的原理关联规则的原理(续)(续)l60大家好关联规则的原理关联规则的原理(续)(续)l61大家好关联规则的原理关联规则的原理(续)(续)l62大家好眼科诊疗数据63大家好关联规则提升度计算l规则H52.0H52.2的提升度:lLH52.0H52.2=CH52.0H52.2/SH52.2=0.833/(NH52.2/N=0.833/(29/40)=1.149l规则H52.2H52.4H52.0的提升度:lLH52.2H52.4H52.0=CH52.2H52.4H52.0/SH52.0=0.692/0.45l表明:规则H5
27、2.0H52.2和规则H52.2H52.4H52.0都是正关联。64大家好Aprior算法算法l65大家好超集超集(Superset)l定义:如果一个集合S2中的每一个元素都在集合S1中,且集合S1中可能包含S2中没有的元素,则集合S1就是S2的一个超集。S1是S2的超集,若S1中一定有S2中没有的元素,则S1是S2的真超集,S2是S1的真子集。l简单地说,GBK即汉字扩展内码规范,它是常用的国标码GB2312-80的超集和补充。lC+isasupersetoftheCprogramminglanguage.66大家好Aprior算法算法步骤步骤l67大家好Aprior算法算法步骤步骤(续续)
28、(3)剪枝步:由于Ck是Lk的超集,根据关联规则性质2,剔除Ck中包含非频繁k-1项集的k项集。(4)计算Ck中所有项集的支持度,剔除小于最小支持度阈值的项集,得到频繁k项集的集合Lk。(5)通过迭代循环,重复2至4步骤,直到不能产生新的长度更大的频繁项集的集合。(6)列出以上步骤得到的所有频繁项集中的所有规则,计算所有规则的置信度,根据最小置信度阈值产生强关联规则。68大家好Aprior算法算法案例案例l案例案例5.2 某商店随机抽取4个顾客的购物篮如表5.7所示,支持度阈值为60%,置信度阈值为80%,利用Apriori算法挖掘表5.7蕴含的关联规则。69大家好Aprior算法算法案例(续
29、)案例(续)第一步:求频繁项集。由于此处阈值为60%,先计算绝对阈值,然后计算百分比阈值。具体步骤为:由表5.7求出项目集合C1,然后求出每个项集的支持度,在此基础上求出支持度大于等于60%的1-项集L1。在L1的基础上,根据Apriori性质,求出2-项集C2,然后求出其支持度,我们发现C2的支持度都大于阈值,因此C2即为支持度大于等于60%的2-项集L2。在L2的基础上,根据Apriori性质,求出3-项集C3,然后求出其支持度。由于C3只有一个项集,且支持度大于60%,此时得到的项集即为频繁项集L3。最终得到一个频繁项集A,B,D。这就是用Apriori算法寻找频繁项集的过程。上述过程可
30、以表示为图5.1。70大家好图5.1Apriori算法过程71大家好Aprior算法算法案例(续)案例(续)l第二步:关联规则的生成l由第一步可得,满足最小支持度的项集为ABD,根据排列组合,该项集蕴含着6种规则,如表5.8所示。其中“”表示交,如AB表示同时包含项集A和B。根据公式和数据,可以计算出如表5.8所示的6种规则的置信度,其计算过程如下所示:根据最小置信度80%,可得到三个强关联规则ADB、BDA和DAB,其置信度均为100%。72大家好根据 诊疗数据Apriori关联规则分析73大家好本章主要内容l l医医学学信信息息与与决决策策支支持持l l数数据据挖挖掘掘与与关关联联规规则则
31、l l大大数数据据概概念念l l层层次次分分析析方方法法与与医医药药方方案案选选择择(了了解解)l l马马尔尔科科夫夫模模型型与与应应用用(了了解解)l l数数据据仓仓库库与与决决策策支支持持系系统统74大家好大大数数据据概概念念和和特特征征l大数据概念 无法在一定时间内用传统的数据库软件工具无法在一定时间内用传统的数据库软件工具无法在一定时间内用传统的数据库软件工具无法在一定时间内用传统的数据库软件工具对其内容进行抓取、管理和处理的数据集合对其内容进行抓取、管理和处理的数据集合对其内容进行抓取、管理和处理的数据集合对其内容进行抓取、管理和处理的数据集合。-维基百科维基百科维基百科维基百科75
32、大家好大数据的产生l数据产生由企业内部向企业外部扩展l数据产生从Web1.0向Web2.0,从互联网向移动互联扩展l中国联通统计,每秒上网记录82万条。l数据产生从计算机、互联网向物联网扩展l视频、传感器、智能设备和RFID、机器对机器(M2M)产生大量数据。思科预测2015年仅移动设备产生的数据流量将达到每月6.3EB的规模。76大家好大数据的应用需求l互联网与电子商务l用户分析:注册信息、博客信息l用户行为分析:鼠标移动、移动终端触摸、眼球移动l基于大数据相关性分析的推荐系统l内容针对性投放l零售业:例如:货架商品关联性分析l金融业:客户行为分析、金融欺诈行为监测l政府:大数据分析用于经济
33、预测77大家好奥巴马竞选连任-大数据应用Dan Wagner,奥巴马奥巴马2012年竞选团队首席分析师,长的有点像比尔年竞选团队首席分析师,长的有点像比尔 盖茨盖茨78大家好大数据在医疗行业的应用l基因组学测序分析79大家好大数据在医疗行业的应用l疫情和健康趋势分析lGOOGLE官网全球登革热趋势。/l大数据分析或可助抗击埃博拉。大数据分析或可助抗击埃博拉。l健康地图”通过搜集社交媒体、地方媒体信息,比WHO早早9天天确定埃博拉出血热在几内亚境内的传播情况。80大家好大数据的作者-涂子沛l我们已经不仅仅处在信息时代l新信息时代?后信息时代?智能时代?l越来与依赖机器,越来与依赖网络,人机共生的
34、时代,机器是数据启动的l软件定义这个世界,数据驱动这时代81大家好大数据的特征(四个V)l l数数数数据据据据量量量量巨巨巨巨大大大大(V V V Vo o o ol l l lu u u um m m me e e e):P P P PB B B B级级级级以以以以上上上上l l数数数数据据据据类类类类型型型型多多多多(V V V Va a a ar r r ri i i ie e e et t t ty y y y):日日日日志志志志、音音音音频频频频、视视视视频频频频l l数数数数据据据据流流流流动动动动快快快快(V V V Ve e e el l l lo o o oc c c ci
35、i i it t t ty y y y):实实实实时时时时分分分分析析析析获获获获取取取取信信信信息息息息l l数数数数据据据据潜潜潜潜在在在在价价价价值值值值大大大大(V V V Va a a al l l lu u u ue e e e):82大家好数据的量级l数据大小的量级83大家好大大数数据据主主流流架架构构:Hadoop+MapReduce84大家好Hdoop+MapReduce架构lHDFS:分布式文件系统。运行在廉价的计算机组成的大规模集群之上。采用元数据集中管理和数据块分散存储相结合的模式。lHbase:基于列存储的开源非关系型数据库。提供非常大数据集的实时读取和写入的随机存取
36、。lMapReduce:分布式并行计算框架,Map任务分解,Reduce综合结果。是一个JAVA函数。lMahout:分布式机器学习和数据挖掘库。lR语言:用于统计分析、绘图的语言和操作环境85大家好Hdoop+MapReduce架构lHive:Facebook提供的数据仓库工具,分析结构化数据的中间件。Hive类SQL查询语音可以查询分析存储在Hadoop中的大规模数据。lPig:基于Hadoop的并行计算高级语言,类似SQLlSqoop:开源工具,Hadoop与传统的数据库间进行数据传递。数据从关系源导入HDFS,以及从HDFS导出到关系数据库。lFlume:Cloudera提供的日志收集
37、系统。lZooKeeper:分布式应用程序集中配置管理器。86大家好Hadoop优势l lHadoopHadoop:分布式文件系统和并行执行环境。能够存:分布式文件系统和并行执行环境。能够存储管理储管理PBPB级的数据。级的数据。1.1.易于扩充的分布式架构。数据处理采用大量计算节易于扩充的分布式架构。数据处理采用大量计算节点点横向横向扩充实现。扩充实现。2.2.善于处理非结构化数据善于处理非结构化数据。是。是ETLETL的进化。的进化。3.3.自动化的并行处理机制。数据分布在并行节点上,自动化的并行处理机制。数据分布在并行节点上,每个节点只处理一部分数据,所有节点同时每个节点只处理一部分数据
38、,所有节点同时并行处并行处理。理。4.4.高高可靠性、容错强。自动保存数据多个副本。自动可靠性、容错强。自动保存数据多个副本。自动将失败的任务重新分配。数据丢失的概率小。将失败的任务重新分配。数据丢失的概率小。5.5.计算靠近存储。计算与存储一体。计算靠近存储。计算与存储一体。6.6.低成本计算和存储。低成本计算和存储。87大家好HDFS架构88大家好HDFS组成lNameNode:命名节点(仅1个),存储元数据,并提供元数据服务。l元数据:文件名、文件目录结构、文件属性、文件块列表、块所在的DataNode等lDataNode:数据节点,为HDFS提供存储块。在本地文件系统中存储数据以及数据
39、校验和,块大小64M.89大家好HDFS写数据流程90大家好HDFS读数据流程91大家好MapReduce框架92大家好MapReduce原理lJob:作业,MapReduce程序;一个MapReduce程序可对应若干个作业,而每个作业被分解成若干个任务(Task)。lJobTracker负责作业调度和资源监控。lTaskTracker负责运行Job。lJobTracker调度任务给TaskTracker,TaskTracker执行任务时,会返回进度报告。lJobTracker记录进度的运行状况,如果某个TaskTracker执行失败,JobTracker会把这个任务分配给其他TaskTrac
40、kerlTask:分MapTask和ReduceTask93大家好MapReduce原理l l每个每个MapReduceMapReduce任务都被初始化为一个作业任务都被初始化为一个作业JobJob,一个作业由若干个任务(一个作业由若干个任务(Task)Task)组成。组成。JobJob又分为又分为MapMap和和ReduceReduce来表示。来表示。l lmapmap函数接收一个原始输入函数接收一个原始输入InputInput分解为分解为键值对,键值对,MapReduceMapReduce框架会将所有框架会将所有的具有相同的具有相同keykey值的值的valuevalue集合在一起,发送给
41、集合在一起,发送给reducereduce函数,函数,reducereduce对对valuevalue集合进行处理,产集合进行处理,产生生OutputOutput94大家好MapReduce原理96大家好Hadoop的的核核心心与与节节点点组组成成97大家好参考书lAnandRajaraman等,王斌译.大数据互联网大规模数据挖掘与分布式处理.人民邮电出版社.l董西成.Hadoop技术内幕深入解析MapReduce架构与设计实现原理.机械工业出版社.l赵刚.大数据技术与应用实践指南.电子工业出版社98大家好医医疗疗大大数数据据应应用用?l l医医疗疗与与大大数数据据的的趋趋势势l l什什么么是
42、是医医疗疗大大数数据据l l如如何何管管理理和和利利用用大大数数据据l l案案例例分分析析99大家好压在百姓健康3座大山第一座健康大山第一座健康大山跑步进入老龄化社会跑步进入老龄化社会大家好第二座大山-癌症年轻化大家好大家好第三座大山-新生儿“先天缺陷”大家好医疗费用在不断上升GDP的占比非常高10-19%0-9%趋势分析:我们正处在医疗行业的一个重要转折点%of population over age 6030+%25-29%20-24%2050WW Average Age 60+:21%Source:United Nations “Population Aging 2002”全球老龄化平均
43、年龄60 +:目前的10%,到2050年将达到20%Source:McKinsey Global Institute AnalysisESG Research Report 2011 North American Health Care Provider Market Size and Forecast以美国为例:医疗大数据的价值3千亿美元/年,相当于每年生成总值增长0.7%大家好0150001000050002010 2011 2012 2013 2014 2015趋势分析:我们正处在医疗行业的一个重要转折点存储的增长医疗服务产生的数据总量(PB)AdminImagingEMREmailFi
44、leNon Clin ImgResearch医疗影像归档一个医疗系统案例的数据到2020年,医疗数据将急剧增长到35 Zetabytes,相当于2009年数据量的44倍增长Source:McKinsey Global Institute AnalysisESG Research Report 2011 North American Health Care Provider Market Size and Forecast大家好1.制药企业/生命科学3.费用报销,利用率 和 欺诈监管2.临床决策支持&其他临床应用 (包括诊断相关的影像信息)4.患者行为/社交网络医疗大数据简介数据来源包括哪些?我
45、们如何利用大数据创造价值?(示例)2.临床决策支持4.由生活方式和行为引发的疾病分析1.个体化医疗3.欺诈监测得以加强McKinsey Global Institute Analysis大家好医疗大数据相关解决方案健康信息服务新兴的医疗服务应用数据分析及视觉化处理数据处理/管理分布式平台老龄社会肿瘤基因组学医疗影像分析医疗影像影像数据处理加速基础医疗服务临床决策支持类SQL的检索医疗记录存储优化个人健康管理个体化医疗机器学习基因数据安全和隐私大家好大数据的挑战不仅来自于数据量的增长.需要新技术的支持检验结果,费用数据,影像,设备产生的感应数据,基因数据等数据量结构化数据,遵循标准的数据标准(如
46、,HL7)非结构化数据,如口述、手写、照片、影像等类型实时有效的商业价值基于现有数据库中的数据进行分析,来支持不同种类的业务:如费用及报销、患者病史、归档影像分析、实时临床决策支持(数据分析)实时数据分析,而非传统的批量处理分析 数据以流的方式进入系统,进行抽取和分析 对于实时运行中的每个时间节点产生影响,而不是事后处理在传统的解决方案之上,引入新的数据及分析模型和技术,价值速度大家好传统解决方案环境ERP,CRM,Batch,OLTP-DBData Center ProvisioningDiscreteVirtualCloud As A ServiceHPC关注数据的价值大数据存储的考虑传统
47、存储方式大规模分析 Hadoop*海量数据库 Hive*大规模备份 Lustre*数据源文本-语音-视频-传感器Requesting Or M2M通讯批量 商业应用丰富的视觉化效果 安全的数据分析和缓存边缘服务器(Edge)分析同步端到端Machine-to-MachineSource-to-Source可行的解决方案体系(示例)Applications&ServicesVisualization File Structure&AnalyticalToolsData Delivery,Operational&GraphicalAnalyticsData Management&Computati
48、onalAnalyticsCompute Storage&InfrastructurePlatforms大家好高效的大数据访问途径 (客户端)“Know Me”“Free Me”“Express Me”智能手机移动医疗助理平板电脑笔记本,Ultrabook其他设备台式机数字标牌自助终端MobilityVital sign,I&O entryMedicationadministrationTemplatedata entryFree-format textdata entryLarge diagnosticimagesData inquiryManageability“Link Me”大家好大数
49、据在中国医疗行业中的应用模式1.制药企业/生命科学3.费用报销,利用率 和 欺诈监管2.临床决策支持&其他临床应用 (包括诊断相关的影像信息)4.患者行为/社交网络药品研发对药品实际 作用进行分析;实施药品市场预测基因测序分布式计算加快基因测序计算效率公共卫生实时统计分析发现公共卫生疫情及公民健康状况新农合基金数据分析及时了解基金状况,预测风险辅助制定农合基金的起付线,赔付病种等基本药物临床应用分析分析基本药物在处方中的比例临床数据比对匹配同类型的病人,用药临床决策支持利用规则和数据实时分析给出智能提示远程监控采集并分析病人随身携带仪器数据,给出智能建议人口统计学分析对不同群体人群的就医,健康
50、数据实施人口统计分析了解病人就诊行为发现病人的特定就诊行为,分配医疗资源大家好案例分享:Regional Health Info Network ChinaReal-time Clinical Decision Support 实时的医疗数据处理(电子健康档案,医疗影像数据),支持医疗协同、临床决策支持和公共卫生管理 采用 Hadoop*(HBase*/Hive*)来实现医疗数据分析和处理 未来将扩展到不同领域、不同区域/地区(包括数据交换、处理和分析)与本地的软件厂商及OEM厂商进行了广泛合作 技术挑战 Hadoop(HBase/Hive)与传统关系型数据库如何有效结合大数据在区域卫生信息平