ImageVerifierCode 换一换
格式:PPT , 页数:41 ,大小:6.75MB ,
资源ID:1738559      下载积分:12 金币
快捷注册下载
登录下载
邮箱/手机:
温馨提示:
快捷下载时,用户名和密码都是您填写的邮箱或者手机号,方便查询和重复下载(系统自动生成)。 如填写123,账号就是123,密码也是123。
特别说明:
请自助下载,系统不会自动发送文件的哦; 如果您已付费,想二次下载,请登录后访问:我的下载记录
支付方式: 支付宝    微信支付   
验证码:   换一换

开通VIP
 

温馨提示:由于个人手机设置不同,如果发现不能下载,请复制以下地址【https://www.zixin.com.cn/docdown/1738559.html】到电脑端继续下载(重复下载【60天内】不扣币)。

已注册用户请登录:
账号:
密码:
验证码:   换一换
  忘记密码?
三方登录: 微信登录   QQ登录  

开通VIP折扣优惠下载文档

            查看会员权益                  [ 下载后找不到文档?]

填表反馈(24小时):  下载求助     关注领币    退款申请

开具发票请登录PC端进行申请

   平台协调中心        【在线客服】        免费申请共赢上传

权利声明

1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,个别因单元格分列造成显示页码不一将协商解决,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前可先查看【教您几个在下载文档中可以更好的避免被坑】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时联系平台进行协调解决,联系【微信客服】、【QQ客服】,若有其他问题请点击或扫码反馈【服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【版权申诉】”,意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:0574-28810668;投诉电话:18658249818。

注意事项

本文(郭秀花--医学大数据分析策略与数据挖掘.ppt)为本站上传会员【w****g】主动上传,咨信网仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知咨信网(发送邮件至1219186828@qq.com、拔打电话4009-655-100或【 微信客服】、【 QQ客服】),核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载【60天内】不扣币。 服务填表

郭秀花--医学大数据分析策略与数据挖掘.ppt

1、医学大数据分析策略与数据挖掘医学大数据分析策略与数据挖掘讲座人:郭秀花讲座人:郭秀花 博士生导师博士生导师 单单 位:首都医科大学位:首都医科大学 日日 期:期:2014年年11月月22日日12提纲中心概况中心概况医学大数据及其分析策略1中心概况中心概况2数据挖掘软件及其实现方法3数据挖掘方法简介及其应用3医学大数据及其分析策略n大数据(BigData)n 数据量规模巨大到无法通过人工,在合理时间内达到截取、管理、处理、并整理成为人类所能解读的信息。4模拟式存量模拟式存量数字式存量数字式存量2000年以前大部分数据是analogdata(模拟式数据)以书、报纸、录像带等存储。特点:数据量较小。

2、数据量较小。2000年以后digitaldata(数字式数据)大大增加以CD、DVD、硬盘等存储。特点:数据量巨大。数据量巨大。20002000年年Source:Researchers at the University of Southern California took four years-1986,1993,2000 and 2007-and extrapolated numbers from roughly 1,100 sources of information.Credit:Todd Lindeman and Brian Vastag/The Washington Post大数

3、据时代的来临大数据时代的来临56医学大数据的应用意义生物标志物识别生物标志物识别利用大数据识别有关疾病发生、预后或治疗效果的生物标志物组学研究基因组学,表观组学,蛋白组学,代谢组学,糖基组学,等环境因素,个体行为与各组学关联7公共卫生监测:传染病监测、慢性非传染性疾病及相关危险因素监测、健康相关监测群体性预防。医学大数据的应用意义8健康管理:通过可穿戴设备对个体体征数据的实时、连续监测提供个体化疾病预防和治疗方案医疗协同和临床决策支持:通过建立专用数据库,调用患者的基因数据、病历信息等大量医学参考数据,辅助疾病的诊断与治疗,实现个体化诊治原则医学大数据的应用意义9可视化信息:可视化信息:数据与

4、信息图像、多媒体信息可视化,更清晰有效地传达与沟通大数据包含的生物医学信息。医学大数据的应用意义10在生物医学研究领域,大数据:环境气象学数据医学影像数据基因、蛋白等组学数据大型临床资料复杂的生物和环境因素研究生物医学大数据的只要特点:高维11过 去假设驱动,收集数据,分析寻找答案数据大多是结构化的,可以分析现 在数据驱动,挖掘寻找问题数据多是非结构化的,难以分析。科学问题处理方式12条件 正态性正态性 线性、齐性线性、齐性 独立性独立性 足够大的样本量足够大的样本量 变量的变量的2020倍倍 .方法 多元线性回归分析多元线性回归分析 LogisticLogistic回归分析回归分析 CoxC

5、ox回归分析回归分析 聚类分析聚类分析 判别分析判别分析 主成分分析主成分分析 因子分析因子分析 广义线性模型广义线性模型 .传统的多元统计方法难以处理和分析医学大数据高维、非线性、非高斯等数据,采用数据挖掘方法,可以提供更高的预测精度。常用的医学多元统计学应用受到制约13数据挖掘方法简介及其应用14数据挖掘概念数据挖掘概念 数据挖掘:数据挖掘:是在从大量的数据中提取隐含的、是在从大量的数据中提取隐含的、事先未知的,但又是潜在有用的信息和知识的过程。事先未知的,但又是潜在有用的信息和知识的过程。14大数据源定义研究问题模型应用建立模型模型评估数据准备提取数据15数据挖掘方法概述数据挖掘方法概述

6、数据挖掘属性筛选属性筛选关联分析关联分析分类预测分类预测回归预测回归预测聚类分析聚类分析随机森林神经网络分类决策树分布估计聚类期望最大化EMK均值聚类层次聚类支持向量机回归回归组合模型广义线性回归神经网络回归LASSO分类回归树支持向量机高维数据降维属性关联分析购物篮分析朴素贝叶斯 肺肺结结节节良良恶恶性性的的判判定定是是CTCT图图像像诊诊断断肺肺癌癌中中的的一一个个难难点点和和关关键键点点。在在实实际际的的临临床床中中,肺肺癌癌被确诊时被确诊时80%80%以上已属中晚期。以上已属中晚期。16数据挖掘方法应用实例数据挖掘方法应用实例矢状位冠状位轴状位矢状位图像库冠状位图像库轴状位图像库三正交

7、位成像应用实例应用实例171801基本信息年龄、性别等轴位纹理冠状位纹理矢状位纹理02 既往史肿瘤病史粉尘接触史遗传病史吸烟史等 淋巴结是否肿大 边缘是否光滑 是否分叶 结节位置 有无空泡征等数据集合03影像学检查CT图像纹理04高维大数据库(变量约1000,样本336例)数据数据挖掘主要分类预测方法挖掘主要分类预测方法基于肺结节纹理基于肺结节纹理鉴别诊断肺癌鉴别诊断肺癌最近邻分类最近邻分类决策树决策树神经网络神经网络 GradientGradient boosting boosting随机森林随机森林支持向量机支持向量机LassoLasso回回回回归归归归1919各纹理产生30,40,50,

8、60个子代(即纹理分别为420,560,700,840个)。每个纹理子代分布为正态分布,均值和标准差与轴位CT图像均值相近;设定每个纹理内部子代之间的相关系数为r=0.1,0.2,0.3,0.4;分别产生2组数据,设定两组各个变量均值之间的差值为d(0.01-0.1)。Monte Carlo模拟分析结果模拟分析结果2020Monte Carlo模拟分析结果模拟分析结果纹理相关系数为纹理相关系数为0.10.1时,时,840840个纹理值各个纹理值各预测模型拟合结果预测模型拟合结果纹理相关系数为纹理相关系数为0.20.2时,时,840840个纹理值各个纹理值各预测模型拟合结果预测模型拟合结果212

9、122支持向量机支持向量机 支持向量机(SupportVectorMachine,SVM)是美国Vapnik 教授于1963年提出的。在解决小样本、非线性和高维模式识别问题中表现出许多优势,并在一定程度上克服了“维数灾难”和“过学习”等问题。在模式识别、回归分析、函数估计、时间序列预测等领域,都得到了长足的发展。Vapnik最优分类(超平)面 SVM的机理是寻找一个满足分类要求的最优分类超平面 ,使得该超平面在保证分类精度的同时,能够使超平面两侧的空白区域最大化。23广义最优分类面-24l当线性不可分时,SVM的主要思想是将输人向量映射到一个高维的特征向量空间,并在该特征空间中构造最优分类面。

10、代替输入向量x,则可以得到最优分类函数为:25Gaussian 核函数:Polynom核函数Vanilladot线性核函数双曲切线核函数Laplacian 核函数Bessel核函数26核核 函函 数数SVM中不同的内积核函数将形成不同的算法。27预测模型不同判别方法结果预测模型不同判别方法结果1.投票法:投票法:选取多数类结果(例如:2个或者2个以上预测模型结果为恶性)作为最后病例的预测结果;2.并联法:并联法:只要有一个预测模型结果判断为恶性,此病人最终判断为恶性结果,否则为良性;3.串联法:串联法:只有3个预测模型同时判断为恶性,此病人最终判断为恶性结果,否则为良性;4.综合法:综合法:合

11、并轴状位、冠状位、矢状位数据集,建立一个预测模型,其结果作为最终结果。病例基本信息分析结果病例基本信息分析结果良性恶性统计值P值性别N(Missing)84(0)252(0)0(卡方检验)1.0000女性n(%)50(59.52)150(59.52)男性n(%)34(40.48)102(40.48)年龄N(Missing)84(0)252(0)3.45(秩和检验)0.0006Mean(Std)54.10(13.57)59.90(12.68)Median(Q1Q3)57(46.563)61(5369.5)MinMax21802583良恶性病例人口学特征分析良恶性病例人口学特征分析不同评价方法支持

12、向量机预测模型结果不同评价方法支持向量机预测模型结果29 利用病例人口学特征、环境遗传信息和结节形态利用病例人口学特征、环境遗传信息和结节形态学信息等综合性信息,建立支持向量机预测模型。学信息等综合性信息,建立支持向量机预测模型。基于人口学、环境遗传和结节形态学信息建立预测模型结果基于人口学、环境遗传和结节形态学信息建立预测模型结果结论:基于三正交位CT图像,结合多方面信息,采用大数据支持向量机分类分类预测方法,可以有效提高肺癌诊断正确率,辅助放射科医生进行辅助诊断肺癌。32数据挖掘软件及其实现方法33Your textR是统计领域广泛使用的诞生于1980年左右的S语言的一个分支。R是一个有着

13、统计分析功能及强大作图功能的软件系统,是由奥克兰大学统计学系的RossIhaka和RobertGentleman共同创立。在R的官方网址上,选择网站镜像http:/cran.r-project.org/mirrors.html2R软件31R R软件软件 R编辑器:编辑程序 选择运行R Console:运行过程 提示错误等http:/www.r-project.org/34支持向量机支持向量机R R语言实现语言实现nlibrary(kernlab)/加载支持向量机程序包/nsetwd(“D:ku”)/设置当前数据库路径/ndatayuce=read.csv(“a.csv”,header=T)/导

14、入预测集数据/ndataxunlian=read.csv(“b.csv”,header=T)/导入训练集数据/nsvmModel-ksvm(as.matrix(dataxunlian1:5),nas.factor(dataxunlian$x),ntype=“C-svc”,kernel=“rbfdot”,C=10,cross=4)/核函数选择/npre=predict(svmModel,datayuce1:5)nwrite.csv(data.frame(pre,class=datayuce$x,zu=datayuce$no),file=result.csv)/输出结果到result.csv/nt

15、able(pre,class=datayuce$x)/结果整理/35支持向量机支持向量机36WEKA(Waikato Environment for Knowledge Analysis)37 WEKA作为一个公开的数据挖掘工作平台,用于非商业目的的研究行为,集合了大量能承担数据挖掘任务的机器学习算法,包括对数据进行预处理,分类、回归、聚类、关联规则以及在新的交互式界面上的可视化。38uSTATASTATA该软件是美国该软件是美国Computer Resource CenterComputer Resource Center研研制的统计软件,目前的制的统计软件,目前的1212、1313版本就可

16、以实现数据版本就可以实现数据挖掘。挖掘。uSAS for windowsSAS for windows:国际权威的统计软件,有专门:国际权威的统计软件,有专门的数据挖掘模块的数据挖掘模块。uSPSS for Windows SPSS for Windows:该软件是一个统计专用软件,:该软件是一个统计专用软件,界面很友好。在界面很友好。在19.019.0之前的版本需要加专门的之前的版本需要加专门的ClementineClementine模块;模块;19.019.0之后版本因有之后版本因有modelermodeler,可,可直接做。直接做。39 基于大数据进行数据挖掘,采用大型服务器可以提高运行速度。40谢谢大家!谢谢大家!谢谢大家!谢谢大家!41

移动网页_全站_页脚广告1

关于我们      便捷服务       自信AI       AI导航        抽奖活动

©2010-2026 宁波自信网络信息技术有限公司  版权所有

客服电话:0574-28810668  投诉电话:18658249818

gongan.png浙公网安备33021202000488号   

icp.png浙ICP备2021020529号-1  |  浙B2-20240490  

关注我们 :微信公众号    抖音    微博    LOFTER 

客服