收藏 分销(赏)

医疗大数据及相关技术介绍培训课件.ppt

上传人:二*** 文档编号:12604253 上传时间:2025-11-10 格式:PPT 页数:42 大小:2.93MB 下载积分:5 金币
下载 相关 举报
医疗大数据及相关技术介绍培训课件.ppt_第1页
第1页 / 共42页
本文档共42页,全文阅读请下载到手机保存,查看更方便
资源描述
Click to edit Master title style,Click to edit Master text styles,Second level,Third level,Fourth level,Fifth level,*,医疗大数据及相关技术介绍,*,*,医疗大数据及相关技术介绍,*,Content,*,医疗大数据及相关技术介绍,*,Page,*,*,医疗大数据及相关技术介绍,*,Page,*,*,医疗大数据及相关技术介绍,*,Page,*,*,医疗大数据及相关技术介绍,*,Page,*,*,医疗大数据及相关技术介绍,*,Page,*,*,医疗大数据及相关技术介绍,*,*,医疗大数据及相关技术介绍,*,*,医疗大数据及相关技术介绍,*,*,医疗大数据及相关技术介绍,*,Page,*,*,医疗大数据及相关技术介绍,*,Page,*,*,医疗大数据及相关技术介绍,*,医疗大数据及相关技术介绍,目录,大数据简介,大数据相关技术,大数据挖掘,大数据平台,2,医疗大数据及相关技术介绍,摩尔定律,正在走向终结,摩尔定律:集成电路芯片上所集成的电路的数目,每隔,18,个月就翻一番,同时性能也提升一倍,单芯片容纳晶体管的增加,对制造工艺提出要求,CPU,制造,18nm,技术,电子泄漏问题,CPU,主频已达,3GHz,时代,难以继续提高,散热问题(发热太大,且难以驱散),功耗太高,3,医疗大数据及相关技术介绍,并发计算发展成熟,4,医疗大数据及相关技术介绍,大数据时代正在来临,1000,+,PB,24,亿网民,1,天产生的数据,63%,GAGR,非结构化数据增长率,数据摩尔定律:,Y=C2,X,X,代表时间,,Y,代表用户的信息分享量,,C,代表现在时刻的分享信息量,30,+,TB,交易量,3000+,万笔,/,天,1PB/S,CERN,:核爆产生数据的速度,5,医疗大数据及相关技术介绍,单位,英语标识,大小,例子,位,Bit,1或0,一个二进制数位:0或1,字节,Byte,8Bit,一个英文字母:8Bit,千字节,KB,1024Byte,一页纸上的文字:5KB,兆字节,MB,1024KB,一首普通MP3的歌曲:4MB,吉字节,GB,1024MB,一部电影:1GB,太字节,TB,1024GB,美国国会图书馆所有登记印刷版书本的消息:15TB,2011年底,其网络备份的数据量为280太字节,拍字节,PB,1024TB,美国邮政局一年处理的信件大约为5拍,谷歌每小时处理的数据为1拍,艾字节,EB,1024EB,相当与13亿中国人人手一本500页的书加起来,泽字节,ZB,1024ZB,截止2010年,人类拥有的信息总量大概是1.2ZB,尧字节,YB,1024YB,超出想象,数据量的表达单位,当前典型大数据的处理量,6,医疗大数据及相关技术介绍,传统数据,vs.,大数据,7,医疗大数据及相关技术介绍,传统数据处理技术面临的挑战,海量数据的高存储成本,数据批量处理性能不足,流式数据处理缺失,有限的扩展能力,单一数据源,数据资产对外增值,数据扩展性需求和硬件性能之间存在差距,传统框架:小型机磁阵商用数据仓库,传统的,IOE,模式已经不能满足,PB,级海量数据的存储、分析和应用需求,小型机,+DWH+SAN,成本高企、扩容昂贵,无法满足海量数据的离线分析和实时分析,无法满足对非结构化数据的快速处理要求,Scale-Up,已到极限,必须支持,Scale-Out,8,医疗大数据及相关技术介绍,大数据处于成长阶段,即将广泛商用,9,医疗大数据及相关技术介绍,大数据是对数据更大的掌控和应用能力,大数据是淘炼黄金而不是制造更多的石头,“大数据”,是数据存储、管理、处理和分析的,技术和解决方案,“大数据”,带来数据分析能力的质变性增强,不仅是传统,BI,领域,也为新商业机会和新商业模式提供了更大的,创新,空间;,“大数据”是“以数据为中心”,这不仅是技术需要,也是管理需要;,存储、计算、分析合一,的系统成为必然的需求、趋势,“大数据”,的本质不在于更多(更快)的数据,而在于对数据中蕴含信息价值的巨大,掌控和应用,能力;使企业更好认识数据中所蕴含的巨大信息价值,影响和改变企业决策依据与过程和生产业务的开展过程,“Big Data is nothing without Big Analysis”,10,医疗大数据及相关技术介绍,大数据要解决的问题,Volume,海量的数据规模,Variety,多样的数据类型,Value,Velocity,快速的数据流转,巨大的数据价值,11,医疗大数据及相关技术介绍,目录,大数据简介,大数据相关技术,大数据挖掘,大数据平台,12,医疗大数据及相关技术介绍,大数据与云计算、物联网、互联网之间的关系,云计算,来源:,互联网进化论,物联网,移动互联网,传统互联网,产生海量数据,大数据是对海量数据的高效处理。,云计算是硬件资源的虚拟化,是大数据分析的支撑平台。,处理分析,13,医疗大数据及相关技术介绍,需求,技术,描述,Data Warehouse,数据仓库,ETL,Data Quality,信息整合、元数据,Text Analytics Engine,Visual Data Modeling,文本内容分词与分析,Hadoop,Map Reduce,分布式文件系统,流计算引擎,Streaming Data,海量非结构化、结构化数据存储,结构化数据处理,实时数据处理,非结构数据分析,各类信息整合,数据处理技术的变化:满足数据的多样化,14,医疗大数据及相关技术介绍,大数据技术,成本可承受(,economically,),的情况下,通过,非常快速(,velocity,)的采集、发现和分析,;在,大量化(,volumes,),、,多类别(,variety,)的数据中提取价值(,value,),分析的数据越全面,分析的结果就越接近于真实,能够从这些数据中获取新的洞察力,并将其与已知业务的各个,环节,相融合,15,医疗大数据及相关技术介绍,计算,存储,数据库,网络,单机,集群,文件存储,单机,设备间连接,设备内连接,关系型数据库,10GE FC IB,分布式数据库,非关系型数据库,块存储,10GE SAS IB,横向扩展,块级虚拟化,横向扩展,分布式文件系统,大数据带来哪些技术变革,-,技术驱动,16,医疗大数据及相关技术介绍,大数据的基本技术,MapReduce,HBase,HDFS,Streaming,分布式,文件系统,HDFS,(,hadoop,Distributed File System),并行数据处理,MapReduce,非结构化数据表,HBase,流式数据处理,Streaming,17,医疗大数据及相关技术介绍,MapReduce,分布式数据处理架构,分组,聚合,DATA,计算,(IOE,架构,),输入,结果,输出,传统方式,X86,服务器,X86,服务器,18,医疗大数据及相关技术介绍,HDFS,分布式文件系统架构,Hadoop,集群,19,医疗大数据及相关技术介绍,HBase NoSQL,数据库,HBase,的数据模型,分布式的多维映射,以,(row,column,timestamp),索引,Rows,Columns,timestamps,“contents:”,“anchor:baidu”,“anchor:google”,“”,t1,“”,t2,“”,t3,Column Family,Tablelet,20,医疗大数据及相关技术介绍,Streaming,:流式数据处理,-Storm,Storm,广泛应用于,实时分析,在线机器学习,持续计算,等领域,。,分批处理,实时处理,VS,Storm,框架,21,医疗大数据及相关技术介绍,大数据 的 预处理技术,滥用缩写词,数据输入错误,数据中的内嵌控制信息,不同的惯用语,重复记录,丢失值,拼写变化,不同的计量单位,过时的编码,含有各种噪声,数据污染,格式标准化,异常数据清除,错误纠正,重复数据的清除,数据处理,大数据预处理技术主要完成对已接收数据的辨析、抽取、清洗等操作,目的是将数据按统一的格式提取出来,然后再转化,集成,载入数据仓库的工具(,ETL,),抽取,:因获取的数据可能具有多种结构和类型,数据抽取过程可以帮助我们将这些复杂的数据转化为单一的或者便于处理的构型,以达到快速分析处理的目的。,清洗,:对于大数据,并不全是有价值的,有些数据并不是我们所关心的内容,而另一些数据则是完全错误的干扰项。,因此要对数据通过过滤“去噪”从而提取出有效数据,22,医疗大数据及相关技术介绍,大数据 的 存储技术,结构化数据:,传统的关系数据模式,海量,数据的查询、统计、更新等操作效率,低,非结构化,数据,图片、视频、,word,、,pdf,、,ppt,等文件,存储,不利于检索、查询和,存储,半结构化,数据,转换为结构化,存储,按照非结构化,存储,23,医疗大数据及相关技术介绍,存储与分析融合,提升处理效率,拷贝,共享存储,分析存储,拷贝,导入存储,数据生产,数据共享,数据分析,数据生产,数据共享,数据分析,一份数据,3,次,存储,浪费空间,67%,一份数据,2,次,拷贝,浪费时间,2,倍,一份数据,1,次,存储,节省空间,67%,一份数据,0,次,拷贝,提升效率,2,倍,存储资源池,24,医疗大数据及相关技术介绍,大数据 的 其他技术,数据仓库,数据仓库是商务智能的依托,是对海量数据库进行分析的核心物理构架,是一种格式一致的多源数据存储中心。数据源可以来自多个不同的系统,如企业内部的财务系统、客户管理系统、人力资源系统,甚至是企业外部系统。数据仓库的出现以后,一系列的产业链也逐步形成,联机分析,联机分析也称多维分析,本意是把分立的数据库“相联”,进行多维的分析;“维”是联机分析的核心概念,指的是人们观察事物、计算数据的特定角度;可以从任意的维度交叉和细分问题,用户能根据自己的需要,随时创建“万维”动态报表,数据挖掘,通过特定的计算机算法对大量的数据进行自动分析,从而揭示数据之间的关系,模式和趋势,为决策者提供新的知识。如果说联机分析是对数据的一种探测,数据挖掘则是对数据进行开采,发现数据之下的历史规律,对未来进行预测。,25,医疗大数据及相关技术介绍,大数据的分析挖掘技术,技术方法,分类,根据挖掘任务,:,分为分类或预测模型发现、数据总结、聚类、关联规则发现、序列模式发现、依赖关系或依赖模型发现、异常和趋势发现等等,根据挖掘对象,:,可分为关系数据库、面向对象数据库、空间数据库、时态数据库、文本数据源、多媒体数据库、异质数据库、遗产数据库以及,环球网,Web,根据挖掘方法,:,可分为,:,机器学习方法、统计方法、神经网络方法和数据库方法。,重点技术,可视化分析。数据,可视,化可以让数据自己说话,让用户直观的感受到结果。,数据挖掘算法。分割、集群、孤立点分析还有各种算法让我们精炼数据,挖掘价值。这些算法要能够应付大数据的量,同时还具有很高的处理速度。,预测性分析。预测性分析可以让分析师根据图像化分析和数据挖掘的结果做出一些前瞻性判断。,语义引擎。人工智能从数据中主动地提取信息。包括机器翻译、情感分析、舆情分析、智能输入、问答系统等。,数据质量和数据管理。透过标准化流程和机器对数据进行处理可以确保获得一个预设质量的分析结果。,26,医疗大数据及相关技术介绍,目录,大数据简介,大数据相关技术,大数据挖掘,大数据平台,27,医疗大数据及相关技术介绍,数据挖掘,(DM),与 知识发现,(KDD),顾名思义,数据挖掘就是从大量的数据中挖掘出有用的信息,数据挖掘技术投入商用的三种基础技术已发展成熟,(,1,)海量数据搜集,(,2,)强大的分布式并行处理技术,(,3,)数据挖掘算法,知识发现(,KDD,):从源数据中发掘模式或联系的方法,KDD,被用来描述整个数据发掘的过程,包括最开始的制定业务目标到最终的结果分析,而用数据挖掘(,DM,,,Data,Mining,)来描述使用挖掘算法进行数据挖掘的子过程。,数据挖掘所发现的知识有以下四类:,广义知识:指类别特征的概括性描述知识,关联知识:反应一个事件和其他时间之间依赖或关联的知识,分类知识:反应同类事物共同性质的特征性知识和不同事物之间的差异性特征知识,预测性知识:根据时间序列型数据,由历史的和当前的数据去推测未来的数据。,28,医疗大数据及相关技术介绍,数据挖掘的技术,技术分类,预言(,Predication,):用历史预测未来,描述(,Description,):了解数据中潜在的规律,数据挖掘技术,关联分析,序列模式,分类(,预言,),聚集,异常检测,30,医疗大数据及相关技术介绍,关联,关联规则挖掘:,在交易数据、关系数据或其他信息载体中,查找存在于项目集合或对象集合之间的频繁模式、关联、相关性、或因果结构。,应用:,购物篮分析、交叉销售、产品目录设计、,loss-leader analysis,、聚集、分类等。,买尿布的客户,二者都买的客户,买啤酒的客户,31,医疗大数据及相关技术介绍,序列,序列模式定义:,给定一个由不同序列组成的集合,其中,每个序列由不同的元素按顺序有序排列,每个元素由不同项目组成,同时给定一个用户指定的最小支持度阈值,序列模式挖掘就是找出所有的频繁子序列,即该子序列在序列集中的出现频率不低于用户指定的最小支持度阈值,应用领域:,客户购买行为模式预测,Web,访问模式预测,疾病诊断,自然灾害预测,DNA,序列分析,工业控制,32,医疗大数据及相关技术介绍,分类,&,预测,分类:,预测分类标号(或离散值),根据训练数据集和类标号属性,构建模型来分类现有数据,并用来分类新数据,预测:,建立连续函数值模型,比如预测空缺值,典型应用,信誉证实,目标市场,医疗诊断,性能预测,分类是发现 质变,预测是发现 量变,33,医疗大数据及相关技术介绍,聚类,簇(,Cluster,),:,一个数据对象的集合,在同一个类中,对象之间具有相似性,不同类的对象之间是相异的,聚类分析,把一个给定的数据对象集合分成不同的簇,聚类是一种无监督分类法,:,没有预先指定的类别,典型的应用,作为一个独立的分析工具,用于了解数据的分布,作为其它算法的一个数据预处理步骤,34,医疗大数据及相关技术介绍,聚类(续),将物理或抽象对象的集合分组成为由类似的对象组成的多个类,聚类在不同的应用领域,用作描述数据,衡量不同数据源间的相似性,以及把数据源分类到不同的簇中;聚类是将数据分类到不同的类或者簇这样的一个过程,所以同一个簇中的对象有很大的相似性,而不同簇间的对象有很大的相异性,聚类与分类不同,聚类所要求划分的类是未知的,35,医疗大数据及相关技术介绍,异常探测,异常检测是数据挖掘中一个重要方面,用来发现”小的模式”,(,相对于聚类,),,即数据集中间显著不同于其它数据的对象。,异常探测应用,电信和信用卡欺骗,贷款审批,药物研究,气象预报,金融领域,客户分类,网络入侵检测,故障检测与诊断等,异常的定义:异常是在数据集中与众不同的数据,使人怀疑这些数据并非随机偏差,而是产生于完全不同的机制。,36,医疗大数据及相关技术介绍,目录,大数据简介,大数据相关技术,大数据挖掘,大数据平台,37,医疗大数据及相关技术介绍,揭开,Hadoop,神秘的面纱,Hadoop,是,Apache,基金会的一个项目总称,主要由,HDFS,和,MapReduce,组成。,Hadoop,来源于其创始人,Doug Cutting,的儿子给一头黄色大象取的名字。,Hadoop,最初只与网页索引有关,迅速发展成为分析大数据的领先平台。,38,医疗大数据及相关技术介绍,Hadoop,已成为大数据事实标准,第一阶段(,20052009,年):模仿,Google,的“三驾马车”,主导者是,Yahoo,!,Facebook,等互联网厂商,相关项目,第二阶段(,2009,年,):模仿,Google,的“新三驾马车”,主导者是,Cloudera,、,Hortonworks,等,Hadoop,发行版厂商,,IBM,、,EMC,、,Intel,、,Huawei,等传统,IT,厂商开始集成,Hadoop,,,Haoop,进入企业市场,相关项目,第三阶段(,2012,年,):博采众长,吸纳,AMP Lab,、流计算等成果,通过配套工具构筑大数据领域生态系统,形成事实标准;相关项目,。,6,大,Hadoop,发行版厂商,Cloudera,、,Hortonworks,、,MapR,、,IBM,、,EMC,、,Huawei,39,医疗大数据及相关技术介绍,数据处理技术与架构发展趋势,传统数据仓库,SQL,、,UPF,SQL,执行引擎,行存、磁盘、,单机,/SE,集群,I/O,存在瓶颈,扩展能力差,实时性差,非结构化,数据存储,无法支持,复杂计算,数据处理,能力弱,UPF:User-defined Process Function,SE:Share Everything,SN,:,Share Nothing,并行批处理,/Hadoop,SQL,、,Java,、,Python,多种计算模型(,MR,、图计算、,),HDFS,、,SN,分布式,解决“大、杂”,多类型数据,复杂计算模型,灵活编程接口,MPP,数据仓库,SQL,、,UPF,向量迭代、并行,列存、,SN,分布式,内存分析数据库,SQL,、,UPF,MicroEngine,、并行,列存、内存,流处理引擎,CQL,、规则,网状算子执行,内存,解决“大、快”,结构化数据快速查询、交互式实时查询,One sizes fit all,单一架构,One sizes fit domain,分离架构(四套系统),One stack rules them all,融合架构(四套变一套),统一持久层,数据减少移动,统一管理,实现资源共享和管理自动化,同一数据可同时进行批处理、流处理以及查询多种计算模型,解决“快、杂”,异构流数据,实时处理,MPP DB,高级编程接口,批计算,流计算,分布式文件系统,资源管理,开发,IDE,系统,管理,数据挖掘算法,/,建模,/,其他工具,40,医疗大数据及相关技术介绍,挖掘平台,数据探索,并行化机器学习算法库,(Mahout/MLlib/HiGraph),建模分析,统计报表,行业应用使能器(,Enabler,),金融行业模型使能套件,电信行业模型使能套件,医疗行业模型使能套件,特征工程,特征,工程:,多人协作,特征复,用,可达,1000,万维度,建模算法:,算法并行化效,率,(T+0),深度,学习,技术,社交化,社交化分析,社交化发布,开放性,支持,PMML,,可以与,SAS,、,SPSS,等对接,支持,SQL,对,Operator,的,扩展性,支持与,R,对接,挖掘平台的业务架构,41,医疗大数据及相关技术介绍,关注大数据技术研究,发现数据价值,谢谢,42,医疗大数据及相关技术介绍,
展开阅读全文

开通  VIP会员、SVIP会员  优惠大
下载10份以上建议开通VIP会员
下载20份以上建议开通SVIP会员


开通VIP      成为共赢上传

当前位置:首页 > 教育专区 > 职业教育

移动网页_全站_页脚广告1

关于我们      便捷服务       自信AI       AI导航        抽奖活动

©2010-2025 宁波自信网络信息技术有限公司  版权所有

客服电话:0574-28810668  投诉电话:18658249818

gongan.png浙公网安备33021202000488号   

icp.png浙ICP备2021020529号-1  |  浙B2-20240490  

关注我们 :微信公众号    抖音    微博    LOFTER 

客服