1、单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,HUAWEI TECHNOLOGIES CO.,LTD.,Huawei Confidential,Page,*,HUAWEI TECHNOLOGIES CO.,LTD.,Page,*,单击此处编辑母版标题样式,Huawei Confidential,英文标题,:32-35pt,颜色,:R153 G0 B0,内部使用字体,:,FrutigerNext LT Medium,外部使用字体,:Arial,中文标题,:30-32pt,颜色,:R153 G0 B0,字体,:,黑体,英文正文,:20-22pt,子目录,
2、2-5,级,):18pt,颜色,:,黑色,内部使用字体,:,FrutigerNext LT Regular,外部使用字体,:Arial,中文正文,:18-20pt,子目录,(2-5,级,):18pt,颜色,:,黑色,字体,:,细黑体,配色参考方案:,建议同一页面内不超过四种颜色,以下是,13,组配色方案,同一页面内只选择一组使用。(仅供参考),客户或者合作伙伴的标志放在右上角,.,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,HUAWEI TECHNOLOGIES CO.,LTD.,Page,*,单击此处编辑母版标题样式,Huawei Confidential,英文标题,:32-
3、35pt,颜色,:R153 G0 B0,内部使用字体,:,FrutigerNext LT Medium,外部使用字体,:Arial,中文标题,:30-32pt,颜色,:R153 G0 B0,字体,:,黑体,英文正文,:20-22pt,子目录,(2-5,级,):18pt,颜色,:,黑色,内部使用字体,:,FrutigerNext LT Regular,外部使用字体,:Arial,中文正文,:18-20pt,子目录,(2-5,级,):18pt,颜色,:,黑色,字体,:,细黑体,配色参考方案:,建议同一页面内不超过四种颜色,以下是,13,组配色方案,同一页面内只选择一组使用。(仅供参考),客户或者合
4、作伙伴的标志放在右上角,.,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,HUAWEI TECHNOLOGIES CO.,LTD.,Page#,单击此处编辑母版标题样式,英文标题,:32-35pt,颜色,:R153 G0 B0,内部使用字体,:,FrutigerNext LT Medium,外部使用字体,:Arial,中文标题,:30-32pt,颜色,:R153 G0 B0,字体,:,黑体,英文正文,:20-22pt,子目录,(2-5,级,):18pt,颜色,:,黑色,内部使用字体,:,FrutigerNext LT Regular,外部使用字体,:Arial,中文正文,:18-2
5、0pt,子目录,(2-5,级,):18pt,颜色,:,黑色,字体,:,细黑体,配色参考方案:,建议同一页面内不超过四种颜色,以下是,13,组配色方案,同一页面内只选择一组使用。(仅供参考),客户或者合作伙伴的标志放在右上角,.,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,HUAWEI TECHNOLOGIES CO.,LTD.,Page#,单击此处编辑母版标题样式,英文标题,:32-35pt,颜色,:R153 G0 B0,内部使用字体,:,FrutigerNext LT Medium,外部使用字体,:Arial,中文标题,:30-32pt,颜色,:R153 G0 B0,字体,:,
6、黑体,英文正文,:20-22pt,子目录,(2-5,级,):18pt,颜色,:,黑色,内部使用字体,:,FrutigerNext LT Regular,外部使用字体,:Arial,中文正文,:18-20pt,子目录,(2-5,级,):18pt,颜色,:,黑色,字体,:,细黑体,配色参考方案:,建议同一页面内不超过四种颜色,以下是,13,组配色方案,同一页面内只选择一组使用。(仅供参考),客户或者合作伙伴的标志放在右上角,.,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,目录,医疗卫生信息化进展与
7、数据特点,云计算与大数据的发展,云计算与大数据改变医疗卫生,2,3,4,大数据案例共享,5,华为简介,1,150,000,员工,16,研发中心,45,培训中心,28,联合创新中心,170+,国家,15,地区部,70,000,研发员工,华为概览,全球领先,ICT,解决方案供应商,上海研究所,8500,人,(专注无线技术),发展历程及客户,智能 :5200万,移动宽带:4450万,家庭终端:2440万,云服务:8000万,(年情况),提供可视化数据表设计工具,年 大数据时代到来,交换机、路由器、服务器、防火墙、虚拟化平台华为、思科、IBM、VMvare,年 国家战略,华为FusionInsight
8、 hadoop Manager,配置IP和主机名称的映射,基于卫生经济学和疗效研究的定价计划-药品定价、医疗服务定价,国家医疗开支的降低,FusionCube 数据仓库一体机,运营商案例SDP天津私有云日志详单项目,云计算与大数据改变医疗卫生,医疗卫生信息化进展与数据特点,Master Slave,医疗卫生信息化进展与数据特点,较复杂的业务逻辑采用UDF(用户自定义函数)完成,如从IP地址获取位置信息,基于M/R完成用户日志的批量处理,表Raw Key Schema设计:,需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。,医疗数据透明度-医疗从业
9、者、医疗机构的绩效更透明,间接促进医疗服务质量的提高,持续创新投入,目录,医疗卫生信息化进展与数据特点,云计算与大数据的发展,云计算与大数据改变医疗卫生,2,3,4,大数据案例共享,5,华为简介,1,云计算的驱动:海量信息和超低成本,大数据的“前世今生”,自然,杂志出版专刊“,Big Data,”,奥巴马政府“国家大数据战略”,纽约时报,:,大数据时代降临,年,年,年,年,年,年,Science,刊登专刊“,Dealing with Data,”,Nature Physics,上出版专刊“,Complexity,”,欧盟智慧城市建设,预算上升至亿欧元,欧洲信息学与数学研究协会会刊,ERCIM
10、News,上出版专刊“,Big Data,”,麦肯锡:大数据是一种全新资产类别,IBM,推出业内首个大数据平台,经济学人,特别报告,数据,无所不在的数据,Google,研究总监发表了,The Unreasonable Effectiveness of Data,一文,2001年Gartner首提“BIG DATA”定义,2003年Google公布三篇论文,奠定技术基石,2006年Apache Hadoop项目独立发展,年学术界开始关注大数据,年企业界相关产品问世,版本发布,年 国家战略,年大数据时代到来,Oracle,:,NoSQL,数据库,+,大数据机,1955年MIT首提“人工智能”,19
11、60、70年代神经网络发明,1980年代专家系统,1989年数据挖掘提出,1990年 高精度SVM算法,1998年 Google,2000年 互联网数据挖掘,年 大数据时代到来,大数据的“大”,数据间的关联,啤酒和尿布,数据挖掘的瓶颈,-,阿里和高德,由于数据量过于庞大,在同样的约束条件下,(,性能和成本,),,使用传统的,IT,技术无法完成数据的管理和分析,满足,4V(Volume,、,Variety,、,Velocity,、,Value,,即容量大、种类多、流量快、价值高,),指标的数据称为,大数据,需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息
12、资产。,大数据起源与定义,“大数据”概念是Gartner公司的分析师Doug Laney在2001年一篇论文中提出的;后在 年重新定义:,存量:,客户挽留,价值提升,业务拓展:,数据就是力量,业界成功经验的借鉴,发展方向,:数据对内与业务紧密融合,对外通过开放营造价值链。,架构支撑,:互联网企业已完成从传统数据仓库到大数据架构的技术转型。,组织支撑,:互联网企业组织中数据科学家及分析师的作用凸显。,1,,组织定位:数据工厂,2,、数据平台部,180,人做数据分析,,T4,专家组,60,多人;数据集中、应用开发分散,3,,内部结算,快,灰度上线;,4,,机器,5,千,+,,日处理并发,SQL5,
13、万,+,,日处理,1P,数据,,60%,应用,2,秒内;,1,,通过数据分析结果优化搜索算法,,提升搜索转化率带来,8,百万美金的收益;,2,,搜索部门,200,多,数据分析师、,40,多数据科学家,占,75%,,技术人员占,25%,,,人力结构保障了数据知识的发现;,11,重视全网数据整合的价值发现,重视数据分析梯队建设,目录,医疗卫生信息化进展与数据特点,云计算与大数据的发展,云计算与大数据改变医疗卫生,2,3,4,大数据案例共享,5,华为简介,1,医疗卫生信息化进展,以建立居民健,康档案为重点,推,进数字化社区卫生,服务中心建设。,信息安全,公共卫生,医院,以医院管理和,电子病历为重点,
14、推进数字化医院建,设。,数字医院,以公众服务平台,建设为重点,提供全,面、连续的信息服务。,公众信息服务,统筹实施卫生管,理信息化,加强网络,与信息安全保障。,信息与网络,社区卫生服务,以完善疾病防控,网络为重点,加强公,共卫生信息系统建设。,公共卫生,区域卫生信息化建设,社区,公众,信息安全,-,10,-,在,HIT,领域以健康档案、电子病历为核心的区域卫生信息平台建设,无疑为大数据技术应用带来了前所未有的机会。,医疗卫生数据特点,异构性,医疗数据类型的多样化。包括数值型数据、类别型数据、图像、文字、信号、语音、视频。加大了知识发现的难度,使开发基于医疗数据库的通用软件系统较为复杂。,海量
15、性,医疗工作自身的特点,如病情观察的不可间断、各种医疗检查结果纷繁复杂以及存有大量的医学文献专著等。高科技的医学检查设备(如,SPEC,、,MRI,、,PET,等),每天都会产生数千兆字节数据。,数学特征不显著,数据特性不显著。医疗数据混合了文字、图形等非数值型数据,使得数据挖掘人员并不能很好的找到可以反应数据间联系的模型。,难以发掘知识,主观性试验和诊断会带有主观性,难以发掘知识。同一个领域的顶尖专家都会对对方的诊断带有异议,这就会难以整合。,标准化危机,在医学界,很多概念都没有规范,例如一个简单的概念,“结肠腺癌,转移到肝”,都有很多的表达形式,再如有的中药有很多别名。,伦理性、社会性、,
16、法律性,数据归属权问题、数据安全问题、法律诉讼问题等。,医疗卫生大数据分析的步骤、技术、平台和工具,数据驱动的科学方法:,步骤一:制定各种数据的标准、功能标准、传输标准,步骤二,:,进行信息化建设,收集数据、建立数据仓库、建立大数据仓库,步骤三:算法研究。这里面有,N,种数据挖掘算法,然后可以自动搜索大数据,同时可能做,10,种、,20,种、,100,种的假说,不同的算法去自动检索不同知识的存在。,步骤四:知识发现。通过自动化的过程可以在同样的大数据里挖掘出各种各样的可能潜在的知识,,步骤五:验证和结论。最后通过统计方法得到进一步验证和结论。,相关技术:,数据抽取、数据存储、数据处理,统计分析
17、数据挖掘、排序学习,模型预测、结果呈现,语义匹配,短文本对话,平台和工具,:,自然语言处理工具(分词、词性标注、专名识别、语法分析、语义角色标注),(,中、英文,),自然语言处理、信息处理应用工具(索引与检索、语义匹配、规则引擎、用户信息模型、对话管理,社会媒体数据处理,信息抽取),机器学习工具(分类、结构预测、排序学习、匹配学习),语言知识库、一般知识库,三个关心的问题:,数据挖掘的流程化,关联:目标驱动,人工智能:模型的通用性和自适应性,大数据的技术,分析方法,1,、,可视化分析,:直观的呈现大数据特点,2,、统计分析:,差异分析、相关分析、,偏相关分析,、距离分析、,回归分析,、,因子
18、分析,、,聚类分析,、,主成分分析,、,因子分析,、快速,聚类,法与,聚类,法、,判别分析,、,对应分析,、多元,对应分析,、,bootstrap,技术等等,3,、数据挖掘算法:,分类、估计、预测、相关性分组或,关联规则,、,聚类,、描述和视化、复杂数据类型挖掘,(Text,Web,图形图像视频音频等,),。,3,、,预测性分析:,预测模型、机器学习、建模仿真,4,、语义引擎:,非结构化数据的多元化给数据分析带来新的挑战,我们需要一套工具系统的去分析,提炼数据。语义引擎需要设计到足够的人工智能以足以从数据中主动地提取信息。,5,、,数据质量和数据管理:,目录,医疗卫生信息化进展与数据特点,云计
19、算与大数据的发展,云计算与大数据改变医疗卫生,2,3,4,大数据案例共享,5,华为简介,1,大数据分析对医疗卫生领域带来巨大变化,麦肯锡在其报告中指出,排除体制障碍,大数据分析可以帮助 的医疗服务业一年创造3000亿美元的附加价值。,大数据给我们带来了一个新的数据驱动的科学研究方法去发现、证实医疗卫生领域我们人类无法知道的知识和智慧,用它为我们服务。,1,、解决传统的不知道的问题,:通过“黑盒子”的办法挖掘出潜存的知识和智慧;,2,、花费是低的,:建成大数据仓库就可以挖掘潜在的知识;,3,、数据可重复利用,高产出的过程,:随着算法研究,运算能力提高,就可以一直去运行,分析;,4,、解决更多的问
20、题,:带来方法学上的科学研究方面,是一个巨大的变革,可能更支持,从传统、宏观上解决更多的问题。,医疗行业大数据的应用场景分析,比较效果研究-找到针对特定病人的最佳治疗途径,临床决策支持系统-提高工作效率和诊疗质量,更智能,对非结构数据的分析能力,医疗数据透明度-医疗从业者、医疗机构的绩效更透明,间接促进医疗服务质量的提高,病人远程监控-慢病管理效果分析,从对慢性病人的远程监控收集数据,分析结果,确定今后的用药和治疗方案,病人档案分析(高危人群分析):应用高级分析可以确定哪些人是某类疾病的易感人群,自动化系统医疗索赔欺诈性分析,基于卫生经济学和疗效研究的定价计划-药品定价、医疗服务定价,国家医疗
21、开支的降低,预测建模新药研究,提高临床试验设计的统计工具和算法通过挖掘病人数据,评估招募患者是否符合试验条件,临床实验数据的分析分析临床试验数据和病人记录可以确定药品更多的适应症和发现副作用。,个性化治疗大型数据集(例如基因组数据)的分析发展个性化治疗,疾病模式的分析帮助医疗产品企业制定战略性的研发 决策,汇总患者的临床记录新药研究,提高临床试验设计的统计工具和算法通过挖掘病人数据,评估招募患者是否符合试验条件,公众健康改善公众健康监控,检测传染病,进行全面的疫情监测。,分类:,临床操作,付款,/,定价,研发,新的商业模式,公众健康,基于,hadoop,大数据医疗应用场景,“卸载”模式,“全量
22、洞察”模式,“新数据”模式,现有数据系统不堪重,负,非实时复杂,SQL,数据处理基于,NoSQL,技术来替换,数据样本分析,+,复杂模型,全量数据,+,多个简单模型,结构化数据为主,非结构化数据、日志数据等低价值数据整合分析,采集转换,统计分析,数据组织与查询,健康档案,/,电子病历对接采集,保存,EHR/EMR/,影像,数据仓库,信息共享,多维统计,科研,决策,统计报表,辅助决策,绩效管理,业务特征,容量:数十,T,PB,范围:全数据,速度:秒分钟小时级,容量:,10,100T,范围:主题数据仓库,速度:秒分钟级,方案,FusionInsight,软件,(,华为在,Hadoop,社区贡献,大
23、企业第一,),Hadoop,x86,服务器,FusionCube,数据仓库一体机,关系数据库,FusionCube,一体机,技术特征,软件解决方案,海量数据处理,分布式并行计算,硬件解决方案,并发高性能计算,破解存储访问瓶颈,业务预期,容量:,G/T,级,T/P,级,模型:采用大表,/,层次表,更容易建模,速度:,10,倍以上,卫生大数据处理与分析的两种途径,根据医疗业务诉求确定数据处理方案,结构化数据收集,半结构化数据收集,影像数据采集,访问日志采集,XX,信息采集,统计类处理,数据提取、转换类处理,数据挖掘类,聚类、分类神经网络等机器学习,影像分析与处理,建立不同主题的数据仓库或数据集市,
24、多维分析预处理,数据项可动态扩展,HIS/CIS/PACS,数据获取,用户,/,医生访问数据获取,医疗应用协同数据获取,可穿戴设备数据获取,XX,数据获取,EHR/EMR,原始数据存储,影像数据存储,数据,ETL,数据挖掘分析,药物信息主题,个人健康主题,疾病信息主题,诊疗信息主题,卫生管理主题,XXX,主题,医疗业务服务平台,(报表、查询、推荐等),数据采集,ETL,实时查询,数据流程,业务要求,卫生统计报表、可视化,病情、档案、影像快速查询,相似病历诊断推荐,Hadoop,HDFS/MapReduce,HBase,数据源,应用系统,华为,FusionInsight Hadoop,组成与增强
25、FusionInsight Hadoop,管理维护,安装,配置,告警,监控,向导,日志,北向,升级,审计,用户,管理,标准,Linux,操作系统,安全加固,Linux,操作系统,FusionInsight Hadoop,企业级增强,集群资源授权管理,数据服务封装接口,集群资源动态调拨,并发控制,备份,/,容灾,接入安全,集群内,HA,数据私密,数据导入,FusionInsight Hadoop,全量数据分析组件,Apache Hadoop,HDFS,HBase,Yarn,Hive,ZooKeeper,Oozie,MapReduce,行业模型(金融等),特征工程库,R,开源社区组件,华为增强组
26、件,年据Hortorworks排名全球第七,大公司第一,年份,提交,解决,2011,201,211,2012,399,302,华为团队社区问题,/,补丁贡献,华为企业级增强重点特性,易安装、易开发,易管理运维,客 户 价 值,核心组件,与社区保持一致,,无特性损失,无厂商锁定,社区主要贡献成员,具备内核问题定位与解决能力,,实施无技术障碍,性能调优与特性增强,,具备业务优化与平台定制能力,增强组件,可靠性、安全性,,企业应用无后顾之忧,易维护、易管理,,便利、快捷,行业经验,,数据模型优化,IBM,Hadoop,应用数据模型构建考虑因素,原始文件存储考虑(基于,HDFS,),文件存储格式,:,
27、TXT,、,CSV,、,XML,数据格式转换,:医疗数据结构复杂、数据类型多,无统一标准,,ETL,处理困难,文件大小,:,HDFS,缺省,64M,,设置合理的数据块大小,有利于提升访问性能,数据仓库表设计考虑(基于,Hbase,),关联查询,:,业务上是否有多表联合查询的需求,多级索引,:,业务上是否需要多数据列同时提供索引,表,Raw Key Schema,设计,:,读数据,:,业务读数,据方便,性能高,数据在存储上能连续分布,能连续或分段,Scan,,避免全表扫描,减少系统,IO,垃圾数据,写数据,:,IO,是瓶颈,需要虑一次,RPC,能够写入更多的数据;以及写数据均衡,保证写并发度,提
28、高写速度。,表,Family,和,Column,设计,:,合理设置、减少扩展,数据有效期,:,数据是否永久保存,有效期到后如何清理,减少对系统的影响,医疗数据表项示意,Hadoop,集群硬件配置与选择,硬件,配置最低要求,CPU,2,个,8,核,Intel,新一代高性能,Xeon E5-2690,(,Sandy Bridge-EP,)系列处理器,Bit-Mode,64bit,内存,10GB,每服务器(,Hadoop,平台运行最小内存需要,36G,),硬盘,操作系统安装盘,600GB,,配置,RAID1,数据盘,500GB,,配置,RAID0,软件,配置最低要求,操作系统,加固版本,CIS Re
29、dHat Enterprise Linux 6 Benchmark v1.2,CIS SUSE Linux Enterprise server 10 Benchmark v2.0.0,服务器软硬件配置要求,应用加速卡选配,PCIE-,压缩解压缩卡,:和,hadoop,无缝对接,卸载服务器,CPU,压缩负载,PCIE-SSD,卡,:用于,M/R,数据,Shuffle,时中间数据的缓存,提升计算性能,计算、存储服务器数量确定,数据容量考虑,每机架服务器硬盘容量有效空间约,510T,(,硬盘大小与配置数,),数据副本:通常设为,3,个拷贝,数据原始容量为,X,T,,加上数据仓库数据量,数据总容量,2
30、5*XT,,同时建议预留,40%,空间,服务器数量:,*,X*3/510,计算,I/O,性能考虑:,查询类应用,:并发数,/,响应时延等,服务器数量越多,性能线性增长,计算类应用,:服务器数量多,有利于加速分布式计算,管理服务器数量确定,管理节点,3,个,,由,Zookeeper,分布式选举算法决定,总数量,3,管理节点(,Master,),+x,个计算,/,存储节点(,Slave,),Hadoop,集群安装与部署,Step2,:配置集群拓扑,Step3,:配置集群参数,自动完成安装配置,1,、集群安装,/,配置,/,管理涉及,IP,地址、硬盘分区、密码设置、系统与集群配置,2,、,社区版,
31、手工命令行操作,,费时费力,社区版,1,、软件,安装向导,2,、,图形化向导式操作,,,Step by step,引导;,3,、,参数模板化,配置,快速部署;,华为,FusionInsight hadoop Manager,开始,安装准备,配置节点互信,打开,SSH,服务,配置硬盘,配置服务器时区,关闭防火墙,配置操作系统文件句柄数,配置,IP,和主机名称的映射,检查服务器,Kerberos,服务,关闭操作系统,Swap,环境配置,安装,OMS,配置集群,结束,数据采集与导入工具,从,本地,区卫、医疗,应用系统,导入,支持从,不同数据源,,包括文件服务器、数据库等导入,支持,数据清洗、转换,华
32、为提供,ETL,工具,,基于,Sqoop,实现:,支持,从,Server,导入到,HDFS,、,Hbase,或,Hive,表,中,同时完成数据清洗转换,,图形化参数,配置,DB Server,可在线、离线转换,HIS/CIS DB,或文件服务器,场景,1,:本地数据导入到,HDFS,从,远端,医院、基层医疗机构,采集,数据,支持,非结构化,信息采集,支持远程数据采集的,可靠性,,节点故障,数据不丢失,性能扩展,:数据量大时,支持节点水平扩展,功能扩展,:支持输入、输出的插件定制(数据源、格式),场景,2,:远端数据采集到,HDFS,区卫平台数据交换,医院前置机,华为,集成开源,Flume,数据
33、采集工具:,与,Hadoop,系统无缝集成,并,实现,Flume,的管理(如安装,/,监控,/,告警等)与可靠性,问题,注:支持数据转换,也可通过独立的,MR,程序完成,Hadoop,应用分布式数据处理,三种开发方式,适合于,海量结构化与非结构化,各类数据,具备,复杂的业务逻辑处理,:如算法,客户端采用,Java,编程,实现,Map,和,Reduce Task,,以及可选的,Input,与,OutputFormat,,,Combine,等任务,方式,1,:基于,Map/Reduce,开发,只能对,结构化,数据处理,客户端采用,Java+HQL,(类,SQL,)编程,无需写,Map/Reduce
34、函数,较复杂的业务逻辑采用,UDF,(用户自定义函数)完成,如从,IP,地址获取位置信息,方式,2,:基于,Hive,开发,适合于,复杂的业务处理,通过定义,DAG,有向无环图,,将多个,M/R,任务按一定逻辑或条件串起来实现一个完整业务,通过,XML,描述任务间关系,方式,3,:结合,Oozie,工作流开发,HBase,数据仓库构建支撑,ClusterTable,与关联查询,ClusterTable,SubTable_x,需求:应用的关联查询,关联查询在应用中广泛存在。而,Hbase,是一个大表,支持有限,华为提供:,ClusterTable,解决方案,ClusterTable,:聚簇表,
35、为一个实际的,Hbase,表,SubTable,:业务上一个或多个关联的子表,被聚簇到一个,HBase,大表中,表,Raw key,设计,:子表本身的,Key,按一定规则变换成为大表,RawKey,关联查询,:,CluterTable,提供访问接口,实现多个子表间的关联查询,华为,Hbase,提供独有的,ClusterTable,表特性,符合传统关系表的业务,建模习惯,降低设计和实现门槛,提供,可视化,数据表设计工具,支持子表间的,关联,查询,HBase,数据仓库构建支撑,二级索引,需求:多索引列,基于多列索引在应用中广泛存在,Hbase,(,key,、,value,)模型,只有,Rowkey
36、索引,不支持多个列的索引,华为解决方案:华为,Hbase,提供高性能二级索引,无需独立,的索引表,在主表中划出独立的数据空间,存储索引信息,索引表,只有,Key,,没有,value,列,,减少存储空间,Key,信息设计包括源数据,Rawkey,信息,,设计规则支持快速提取,主表插入数据时,同步更新一个索引表,该索引表,Rowkey,设计包括主表中列信息和该行的,Rawkey,信息,从而能快速查询获取主表中的信息,二级索引原理,二级索引解决方案示意,基于,Hadoop,的医疗应用(报表,/,查询,/BI/,推荐等),HDFS,(原始信息与影像数据),Hbase,(健康档案、电子病历与影像索引)
37、查询服务,HDFS,(,病情,/,药物等分析、分类,/,标签,),推荐、,BI,类应用,MR,算法挖掘(,Mahout,),Hbase,(,底层数据仓库),OLAP Server,报表工具,JDBC,驱动适配,Hbase,接口,推荐、预测算法,多维数据预计算,报表类应用,(综合卫生管理等),查询类应用:,(,健康档案,/,病历,/,区域影像查询等,),BI/,推荐类应用:,(辅助诊断等),Hbase,(分类,/,标签信息存储),华为:,合作方:,开源:,Pentaho,商业:,SAS,,,IBM Cognos,其它分布式软件系统开发需考虑问题,Zookeeper,服务应用模型,Zookeep
38、er,内各,Server,角色与功能,配置管理示意,:系统的配置数据都写在,/conf,节点,当节点信息发送变化时,自动通知,watch,的,Client,集群管理和,Master/Salve,仲裁示意,:,client,信息写入目录,/group,下,某个,Client,连接断开,节点内容变化,自动通知其它,Client,,同时最小编号作为,Master,,实现主备仲裁,需求,全局系统配置与更新,节点主备仲裁,名字服务,/,节点集群故障管理,解决方案,利用,Hadoop,分布式协调服务组件,Zookeeper,卫生专网:众多机构之间快捷可靠传递,医疗协同,公共卫生,卫生管理,计划生育,综合管
39、理,公众服务,药品管理,医疗保障,区卫平台,医院,疾控,居民,妇幼,社康,血站,3,大量增长数据的高效存储,2,接入人口数量增长,采集信息丰富(从基本信息、健康信息到诊疗信息、医学影像等,数据量从几十,TB,到,PB,级),区域卫生大数据的共享与分析,1,经过几年建设,一些区域卫生平台积累了大量的数据,如有进行有效的共享与分析,体现数据的价值,安全:服务公众需要数据和系统安全稳定,4,信息平台承载大量居民医疗卫生关键数据,威胁来自于物理环境、网络、计算服务、应用等各层面,如何防御?,运营管理:多系统、多业务、多品牌系统,5,交换机、路由器、服务器、防火墙、虚拟化平台,华为、思科、,IBM,、,
40、VMvare,各种机构,各种协议,各种业务,如何满足快捷可靠的传递?,带宽、计算、容量如何规划?,6,区域卫生信息化平台建设关注的几个主要问题,具备大数据能力的区域卫生云数据中心,电子政务外网,专线,/,运营商网络,上级平台,医院,公卫,下级平台,居民,Anti-DDOS,备份,服务器,存储区,NIP,USG,USG,核心交换机,CE12800,NE40E-X3,接入交换机,E6800,机架,:RH2288/RH5885,刀片,:E9000,区域卫生数据中心,SVN,数据核心区,NS2120,区卫业务区,管理与安全区,门户区,(DMZ),智能网卡,出口区,核心区,接入区,虚拟化平台,Fusio
41、nSphere,安全设备,可靠接入卫生机构,:,网络及带宽规划,接口丰富,双链路可靠接入,VPN,安全接入,统一存储:,管理,T/P,级卫生数据,专业文件系统,记录数十亿卫生业务活动,自动高速备份与恢复技术,数据中心网络:,64T,大容量,无阻塞,强大云计算支持,,1000VM/s,迁移速度,支持快速业务上线、业务迁移、多活数据中心构建,容灾:,提供数据级、应用级、双活三种容灾方案,虚拟化云平台:,多年各行业核心应用验证可靠性,SPECvirt,验证性能领先,开放兼容其他厂家硬件,系列图形化运维工具,6,重防护,保障安全:,边界防护,入侵检测,主机安全,应用安全,防病毒,虚拟化安全,eSigh
42、t,:,统一运维,兼容多厂家,数据中心机房:,模块化,绿色,可定制,服务器:,机架,刀片,高密服务器,13,年出货国产,运维,:eSight,模块化机房,S5500T/S5600T/S5800T,统一存储,容灾,NE,AR,卫生应用,Service Log,容灾:提供数据级、应用级、双活三种容灾方案,64T大容量,无阻塞,服务器数量:*X*3/510,区域卫生信息化平台建设关注的几个主要问题,写数据:IO是瓶颈,需要虑一次RPC能够写入更多的数据;,查询模式:类SQL操作支持join等操作,自动高速备份与恢复技术,Fusion Insight存储历史明细和影像索引,分析客户特征,HDFS/Ma
43、pReduce,采用FusionInsight进行业务分析,100台服务器,强大的掌握代码的团队,,行业经验,数据模型优化,大数据给我们带来了一个新的数据驱动的科学研究方法去发现、证实医疗卫生领域我们人类无法知道的知识和智慧,用它为我们服务。,云计算的驱动:海量信息和超低成本,Embedded DB,华为全系列可扩展和高可靠的,IT,产品,中小企业,/,分支机构,全球,企业,E6000,Blade,X6000 for DC,4U 4S/8U 8S,RH5885 V2,RH2485 V2,2U 4S,ES3000,SSD Card,S2200T,S5600T,S5800T,Dorado2100
44、G2,N8000,UDS,Dorado5100,数据中心,存储,服务器,可扩展性,/,可靠性,E9000,Blade,融合架构,RH2285 V2,RH2288 V2,2U 2S,RH1288 V2,1U 2S,X8000,Rack Server,FusionCube,FusionSphere,云解决方案,FusionAccess,微数据中心,模块化数据中心,集装箱,数据中心,云数据中心,ManageOne,数据中心管理,S2600T,FusionInsight,OceanStor18000,系列(,HVS85T/88T,),OceanStor 9000,目录,医疗卫生信息化进展与数据特点,云
45、计算与大数据的发展,云计算与大数据改变医疗卫生,2,3,4,大数据案例共享,5,华为简介,1,实践表明,大数据技术大有可为,FusionInsight,软件(,Hadoop,),FusionCube,数据仓库一体机,案例,天津移动详细话单查询,某银行非结构化数据历史明细、影像查询、数据营销,某大企业财经系统数据仓库,某运营商,BI,应用对比,广东海事局智慧海事数据报表预查询,问题,存储分散可靠性差,高吞吐量高并发需求,海量数据,,无法查询,需手工,历史明细,150TB,电子影像数据,2PB,月底结算时,高并发,存储性能上存在瓶颈,影响结算,三个表数据量分别是:,5,千万条,,16,亿条,,16
46、亿条,大数据量的高速查询与报表生成,方案,采用,FusionInsight,进行,业务分析,,100,台服务器,Fusion Insight,存储历史明细和影像索引,分析客户特征,财经报表数据集市卸载到,FusionCube,上,2,计算节点,6,存储节点,FusionCube,,对比,x86+SAN,,其他厂家集群,FusionCube,DB,集群,效果,HDFS,统一存储;,吞吐量,25G/S,实现大容量的快速查询,精准营销,并发用户数达到,800,,时延大幅降低,相比,4,节点,x86+SAN,架构提升,1128,倍,高性价比,降低投资成本,全融合,更紧凑,易运维,运营商案例,SDP,
47、天津私有云日志详单项目,存储规模:,最大容量为,150TB,数据特征,:,结构化数据,查询模式,:,类,SQL,操作支持,join,等操作,录入模式,:数据录入后基本不再修改,网络银行操作的历史明细,电子影像数据,存储规模:,最大容量为,2PB,数据特征,:,非结构化数据,查询模式,:,由合同,ID,查询对应影像数据,录入模式,:数据录入后基本不再修改,监管部门报表数据,存储规模:,数据全集,数据特征,:,结构化和非结构化数据,查询模式,:,报表数据对时延要求不高,录入模式,:数据录入后基本不再修改,需求总结,存储规模:,中等以上规模,数据特征,:,结构化,/,非结构化数据,查询模式,:,灵活
48、时延不是很敏感,录入模式,:录入后基本不再修改,金融案例1:某 数据管理需求,交易明细(结构化数据)直接存入HBase,业务影像、凭证数据打包后存数HDFS集群,在HBase中存储其索引。,交易明细(结构化数据)直接存入HBase;业务影像、凭证数据打包后存入HDFS集群,在HBase中存储其索引,可满足结构化、非结构化数据的快速检索;同时可基于HBase、HDFS进行数据分析或Ad-hoc查询。,HDFS,HIVE,前端,UI,1.,入库,2.,清洗,3.11.,导入,hive,3.1.2HQL,分析,MR,分析,Hadoop,集群,数据源,QSM,:,Query support Mode
49、l,LLM,:,load module,LCM,:,clean module,LAM,:,analysis module,Hbase,金融案例2:某 日志分析与方案描述,项目需求:根据用户操作 、网络 日志信息,完成,访问热点页面统计,客户端分析,地理位置与时间段分析,客户访问路径分析,客户群分析,方案:,基于HDFS保存原始日志,采用MR或Hive完成各种统计分析,分析结果保存在Hbase,可以和客户的其它信息进行Join操作,供UI呈现或第三方服务快速访问,互联网视频案例:某视频系统数据管理需求,项目需求,:根据用户点击视频网站信息,完成,视频报表统计,内容特征分析,用户偏好分析,基于内容
50、用户偏好的推荐,方案,:,HDFS,完成用户日志、内容元数据的存储,基于,M/R,完成用户日志的批量处理,基于,M/R,完成内容特征、个人偏好的分析,采用,Hbase,完成聚合的日志分析,内容元数据(含特征)、个人偏好的存储,基于实时流处理完成系统监控的统计分析,Data,Channel,Control,Channel,Load balance mode,Master Slave,mode,Service Portal,Report Service/Content Recommendation,Log/Content/User Analysis,HBase,Distributed Data






