1、医学统计学医学统计学(1010)1数据挖掘分析数据挖掘分析 第二部分第二部分Logistic回回归 第一部分第一部分2Logistic回归第一部分3回归分析的分类回归分析的分类多个因变量多个因变量(y1,y2,yk)路径分析路径分析结构方程模型分析结构方程模型分析一个一个因变因变量量 y连续型因变量连续型因变量(y)-线性回归分析线性回归分析分类型因变量分类型因变量(y)-Logistic 回归分析回归分析时间序列因变量时间序列因变量(t)-时间序列分析时间序列分析生存时间因变量生存时间因变量(t)-生存风险回归分析生存风险回归分析4多重线性回归多重线性回归logisticlogistic回归
2、回归5logisticlogistic回归(回归(logistic regressionlogistic regression)是研究因)是研究因变量为二分类或多分类观察结果与影响因变量为二分类或多分类观察结果与影响因素(自变量)之间关系的一种多变量分析素(自变量)之间关系的一种多变量分析方法,属概率型非线性回归。方法,属概率型非线性回归。6logisticlogistic回归的分类:回归的分类:(1 1)二分类资料)二分类资料logisticlogistic回归:回归:因变量因变量为两分类变量为两分类变量的资料,可用非条件的资料,可用非条件logisticlogistic回归和条件回归和条件
3、logisticlogistic回归回归进行分析。非条件进行分析。非条件logisticlogistic回归多用于非配比病例回归多用于非配比病例-对对照研究或队列研究资料,条件照研究或队列研究资料,条件logisticlogistic回归多用于配回归多用于配对或配比资料。对或配比资料。(2 2)多分类资料)多分类资料logisticlogistic回归:回归:因变量因变量为多项分类的为多项分类的资料,可用多项分类资料,可用多项分类logisticlogistic回归模型或有序分类回归模型或有序分类logisticlogistic回归模型进行分析。回归模型进行分析。7队列研究队列研究(cohor
4、t study)(cohort study):也称前瞻性研究、随访研究等。是一种由因及果也称前瞻性研究、随访研究等。是一种由因及果的研究,在研究开始时,根据以往有无暴露经历,将研究人群分为暴露人的研究,在研究开始时,根据以往有无暴露经历,将研究人群分为暴露人群和非暴露人群,在一定时期内,随访观察和比较两组人群的发病率或死群和非暴露人群,在一定时期内,随访观察和比较两组人群的发病率或死亡率。如果两组人群发病率或死亡率差别有统计学意义,则认为暴露和疾亡率。如果两组人群发病率或死亡率差别有统计学意义,则认为暴露和疾病间存在联系。病间存在联系。队列研究验证的暴露因素在研究开始前已存在,研究者知队列研究
5、验证的暴露因素在研究开始前已存在,研究者知道每个研究对象的暴露情况。道每个研究对象的暴露情况。研究人群研究人群+-+-调查方向:追踪收集资料调查方向:追踪收集资料比较比较疾病疾病人数人数暴露暴露abcda/(a+b)c/(c+d)队列研究原理示意图队列研究原理示意图8RRRR(相对危险度(相对危险度relative riskrelative risk):表示暴露组与非暴露组):表示暴露组与非暴露组发病率发病率(或死亡率或死亡率)的比值。也称为危险比(的比值。也称为危险比(risk ratiorisk ratio)。)。反映了暴露与疾病发生的关联强度。反映了暴露与疾病发生的关联强度。RRRR表明
6、暴露组发病或死亡的危险是非暴露组的多少倍。表明暴露组发病或死亡的危险是非暴露组的多少倍。9病例对照研究病例对照研究(case-control studies)(case-control studies):一种由果及因的回顾性一种由果及因的回顾性研究,先按疾病状态确定调查对象,分为病例研究,先按疾病状态确定调查对象,分为病例(case)(case)和对照和对照(control)(control)两组,然后利用已有的记录、或采用询问、填写调查两组,然后利用已有的记录、或采用询问、填写调查表等方式,了解其发病前的暴露情况,并进行比较,推测疾病表等方式,了解其发病前的暴露情况,并进行比较,推测疾病与暴
7、露间的关系。与暴露间的关系。+-病例病例+-对照对照调查方向:收集回顾性资料调查方向:收集回顾性资料abcda/(a+b)c/(c+d)比较比较人数人数暴露暴露疾病疾病病例对照原理示意图病例对照原理示意图1011病例对照研究的类型病例对照研究的类型(一)病例与对照不匹配(一)病例与对照不匹配-非条件非条件logisticlogistic回归回归在设计所规定的病例和对照人群中,分别抽取一定量的研究对在设计所规定的病例和对照人群中,分别抽取一定量的研究对象,一般对照应等于或多于病例数,此外无其他任何限制。象,一般对照应等于或多于病例数,此外无其他任何限制。(二)病例与对照匹配(二)病例与对照匹配-
8、条件条件logisticlogistic回归回归匹配或称配比(匹配或称配比(matchingmatching),即要求对照在某些因素或特),即要求对照在某些因素或特征上与病例保持一致,目的是对两组比较时排除混杂因素的征上与病例保持一致,目的是对两组比较时排除混杂因素的干扰。匹配分为成组匹配和个体匹配。干扰。匹配分为成组匹配和个体匹配。12非条件非条件logisticlogistic回归回归应变量为二分类资料应变量为二分类资料p一个二分类自变量一个二分类自变量p两个(多个)二分类自变量两个(多个)二分类自变量p无序多分类自变量无序多分类自变量p有序多分类自变量有序多分类自变量p引入数值型自变量引
9、入数值型自变量应变量为有序多分类资料应变量为有序多分类资料应变量为无序多分类资料应变量为无序多分类资料13二分类资料的二分类资料的logisticlogistic回归回归二分类二分类 logistic logistic 回归对自变量没有特殊要求回归对自变量没有特殊要求,自变量可以是分类变量自变量可以是分类变量(包括二分类和多分包括二分类和多分类变量类变量)和数值变量。和数值变量。二分类资料的二分类资料的logisticlogistic回归通过回归通过SPSSSPSS统计软件统计软件的的二元二元LogisticLogistic过程实现统计分析。过程实现统计分析。14【例例1 1】某某医师为研究妇
10、女服避孕药与子代染医师为研究妇女服避孕药与子代染色体异常的关系,分别调查了子代染色体异色体异常的关系,分别调查了子代染色体异常和正常的同龄组儿童的母亲常和正常的同龄组儿童的母亲5454名和名和196196名,名,结果如表结果如表。试对此资料进行分析,能否提出试对此资料进行分析,能否提出子代染色体异常与其母在孕前子代染色体异常与其母在孕前6 6个月内服用避个月内服用避孕药有关?孕药有关?15SPSS软件操作软件操作第第1 1步:定义变量步:定义变量16第第2 2步:步:输入原输入原始数据始数据17第第3 3步:加权设置步:加权设置选择选择数据数据加权个案(加权个案(WW)将将f f移入移入频率变
11、量频率变量18第第4 4步:步:logisticlogistic回归分析(回归分析(1 1)选择选择分析分析 回归回归二元二元logisticlogistic19第第4 4步:步:logisticlogistic回归分析(回归分析(2 2)将将a a和和b b分别移入分别移入协变量协变量和和因变量因变量20自变量全部进入模型自变量全部进入模型向前逐步选择法向前逐步选择法向后逐步剔除法向后逐步剔除法条件:将变量剔除出模型的依条件:将变量剔除出模型的依据是条件参数估计的似然比统据是条件参数估计的似然比统计量的概率值。计量的概率值。LRLR:将变量剔除出模型的依据:将变量剔除出模型的依据是最大偏似然
12、估计的似然比统是最大偏似然估计的似然比统计量的概率值。计量的概率值。WaldWald:将变量剔除出模型的依:将变量剔除出模型的依据是据是WaldWald统计量的概率值。统计量的概率值。21第第4 4步:步:logisticlogistic回归分析(回归分析(3 3)设置设置选项选项勾上勾上expexp(B B)的的95CI95CI。22第第4 4步:步:logisticlogistic回归分析(回归分析(4 4)结果解读:结果解读:OR=3.200OR=3.200,p=0.000p=0.000OROR的的95%CI95%CI为(为(1.7125.9831.7125.983)ExpExp(B B
13、)=e=eB B23值得注意的是病例值得注意的是病例-对照研究中对照研究中,病例与对病例与对照两组人数的比例是人为规定的照两组人数的比例是人为规定的,不代表不代表自然人群中真实的病人与正常人的比值。自然人群中真实的病人与正常人的比值。因此因此,根据病例一对照研究资料建立的根据病例一对照研究资料建立的 Logistic Logistic 回归方程中回归方程中,常数项意义不大常数项意义不大,主主要针对结果中自变量的回归系数及其相应要针对结果中自变量的回归系数及其相应的比数比的比数比OR OR 值的意义作解释值的意义作解释,不宜直接用不宜直接用于所研究事件发生概率的预测和判别于所研究事件发生概率的预
14、测和判别。24两个二分类自变量两个二分类自变量的的logisticlogistic回归回归两个自变量均为两水平的二分类资料的两个自变量均为两水平的二分类资料的 Logistic Logistic 回归分析与一个自变量为两水平的回归分析与一个自变量为两水平的二分类资料的二分类资料的 Logistic Logistic 回归分析在步骤方法回归分析在步骤方法上是相同的上是相同的,只是增加了一个自变量只是增加了一个自变量,在在建立建立 LogisticLogistic回归方程时需要对两个自变量回归方程时需要对两个自变量对应的参数进行估计对应的参数进行估计,计算两个比数比。计算两个比数比。另外另外,两个
15、自变量均有意义时两个自变量均有意义时,看哪个影看哪个影响作用更大些响作用更大些,与多重线性回归一样与多重线性回归一样,也也是比较标准偏回归系数绝对值的大小。是比较标准偏回归系数绝对值的大小。25无序多分类自变量的无序多分类自变量的Logistic Logistic 回归回归自变量是一个或多个为无序多分类变量时自变量是一个或多个为无序多分类变量时,其其 Logistic Logistic 回归在方法上同上述二分类资料的回归在方法上同上述二分类资料的 LogisticLogistic回归回归,只要对只要对自变量的不同水平构造哑变自变量的不同水平构造哑变量量即可。某一多分类无序自变量可构造的哑变量即
16、可。某一多分类无序自变量可构造的哑变量数等于该自变量的分类数减数等于该自变量的分类数减 1 1。将哑变量引入模型。将哑变量引入模型,其结果无论有无统计学意义其结果无论有无统计学意义,都是相对事先确定都是相对事先确定某一类为基准对照而言的。某一类为基准对照而言的。SPSSSPSS对字符型多分类无序自变量对字符型多分类无序自变量,系统默认以最系统默认以最后的那个分类为对照。后的那个分类为对照。26有序多分类自变量的有序多分类自变量的Logistic Logistic 回归回归Logistic Logistic 回归中自变量为有序多分类变量回归中自变量为有序多分类变量,即等级变量即等级变量,如文化程
17、度可分为文盲、小学、如文化程度可分为文盲、小学、中学、大学及以上等。中学、大学及以上等。这种资料的这种资料的 Logistic Logistic 回归分两种情况处理回归分两种情况处理:如果自变量的等级分组与如果自变量的等级分组与 logit(P)logit(P)呈线性关呈线性关系系,即等级效应等比例增加或减少即等级效应等比例增加或减少,则该自则该自变量可以变量可以作为一个数值型自变量引人模型作为一个数值型自变量引人模型;否则否则,将等级变量视为无序多分类自变量将等级变量视为无序多分类自变量,以哑变量的形式以哑变量的形式引入模型进行分析。引入模型进行分析。27引入数值型自变量的引入数值型自变量的
18、LogisticLogistic回归回归数值变量直接引入模型数值变量直接引入模型,得到相应的比数比得到相应的比数比 OR OR 是是指自变量增加一个单位指自变量增加一个单位(如年龄增加如年龄增加 1 1 岁岁)比数自然比数自然对数值的变化量。对数值的变化量。若将数值自变量分成几组若将数值自变量分成几组,如自变量年龄按如自变量年龄按 10 10 岁岁间隔分组引人模型时间隔分组引人模型时,其其OR OR 值是指年龄每增加值是指年龄每增加 10 10 岁比数自然对数值的变化量。岁比数自然对数值的变化量。28数值型变量转换成分类变量的临界点选择,数值型变量转换成分类变量的临界点选择,最佳的方法是采用最
19、佳的方法是采用ROCROC分析。分析。29【例例2 2】为了探索有关危险因素和保护因素,对为了探索有关危险因素和保护因素,对3232例胃癌病人和例胃癌病人和3232例对照者进行病例对照研究,例对照者进行病例对照研究,考察的危险因素作为自变量,分别为:考察的危险因素作为自变量,分别为:x1x1(年龄)(年龄)x2x2(蛋白质摄入量由低到高:(蛋白质摄入量由低到高:0 0,1 1,2 2,3 3,4 4)x3x3(新鲜蔬菜及水果食用情况:良好、一般、不足、严重不足(新鲜蔬菜及水果食用情况:良好、一般、不足、严重不足为为0 0,1 1,2 2,3 3),),x4x4(吃盐量高食物由轻到重为:(吃盐量
20、高食物由轻到重为:0 0,1 1,2 2,3 3,4 4),),x5x5(饮食习惯,从良好,一般,不良,严重不良为:(饮食习惯,从良好,一般,不良,严重不良为:0 0,1 1,2 2,3 3),),x6x6(精神心理因素,从乐观,较乐观,一般,不良为(精神心理因素,从乐观,较乐观,一般,不良为0 0,1 1,2 2,3 3)。Y Y(是否患胃癌作为因变量。(是否患胃癌作为因变量。0 0未患,未患,1 1患者)患者)30。31SPSS软件操作软件操作第第1 1步:定义变量步:定义变量32第第2 2步:输入步:输入原始数据原始数据33第第3 3步:步:logisticlogistic回归分析(回归
21、分析(1 1)选择选择分析分析 回归回归 二元二元logisticlogistic34第第3 3步:步:logisticlogistic回归分析(回归分析(2 2)将将x1-6x1-6和和y y分别移入分别移入协变量协变量和和因变量因变量35第第3 3步:步:logisticlogistic回归分析(回归分析(3 3)设置设置选项选项勾上勾上expexp(B B)的的95CI95CI。36第第3 3步:步:logisticlogistic回归分析(回归分析(4 4)结果解读:结果解读:给出各因素的给出各因素的OROR(95%CI95%CI)及)及相应的相应的p p值。值。37第第3 3步:步:
22、logisticlogistic回归分析(回归分析(5 5)38第第3 3步:步:logisticlogistic回归分析(回归分析(6 6)39第第3 3步:步:logisticlogistic回归分析(回归分析(7 7)结果解读:结果解读:给出入选各因素的给出入选各因素的OROR(95%CI95%CI)及相应的)及相应的p p值。值。40【例例3 3】为了探讨冠心病发生的有关危险因素,为了探讨冠心病发生的有关危险因素,对对2626例冠心病病人和例冠心病病人和2828例对照者进行病例例对照者进行病例-对照对照研究,各因素的说明及资料研究,各因素的说明及资料如下如下,试用,试用logistic
23、logistic回归分析方法筛选危险因素回归分析方法筛选危险因素 。41。42SPSS软件操作软件操作第第1 1步:定义变量步:定义变量43第第2 2步:输入原始数据步:输入原始数据44第第3 3步:步:logisticlogistic回归分析(回归分析(1 1)选择选择分析分析 回归回归 二元二元logisticlogistic45第第3 3步:步:logisticlogistic回归分析(回归分析(2 2)将将x1-8x1-8和和y y分别移入分别移入协变量协变量和和因变量因变量46第第3 3步:步:logisticlogistic回归分析(回归分析(3 3)设置设置选项选项勾上勾上exp
24、exp(B B)的的95CI95CI。47第第3 3步:步:logisticlogistic回归分析(回归分析(4 4)结果解读:结果解读:给出入选各因素的给出入选各因素的OROR(95%CI95%CI)及相应的)及相应的p p值。值。48多分类资料的logistic回归应变量为有序多分类资料的应变量为有序多分类资料的logisticlogistic回归回归u应变量的水平数大于应变量的水平数大于2 2,且水平之间存在等,且水平之间存在等级递增或递减关系的资料为有序多分类资级递增或递减关系的资料为有序多分类资料。料。uSPSSSPSS中通过有序中通过有序logisticlogistic过程实现。
25、过程实现。49【例例4 4】研究性别和两种治疗方法对某病疗效的研究性别和两种治疗方法对某病疗效的影响,疗效的评价分为三个有序等级,数据如影响,疗效的评价分为三个有序等级,数据如下,试做下,试做logisticlogistic回归分析:回归分析:50SPSS软件操作软件操作第第1 1步:定义变量步:定义变量51第第2 2步:步:输入原输入原始数据始数据52第第3 3步:加权设置步:加权设置选择选择数据数据加权个案(加权个案(WW)将将f f移入移入频率变量频率变量53第第4 4步:步:logisticlogistic回归分析(回归分析(1 1)选择选择分析分析 回归回归有序有序54第第4 4步:
26、步:logisticlogistic回归分析(回归分析(2 2)将将A A和和B B移入移入协变量,协变量,C C移入移入因变量因变量55第第4 4步:步:logisticlogistic回归分析(回归分析(3 3)设置设置输出输出勾上勾上平行线检验。平行线检验。56第第4 4步:步:logisticlogistic回归分析(回归分析(4 4)结果解读:结果解读:性别(性别(A A)和疗法()和疗法(B B)的)的回归系数大于回归系数大于0 0,具有统计学意义。,具有统计学意义。OROR分别为分别为e e1.3191.319=3.740=3.740,e e1.7971.797=6.302=6.
27、30257第第4 4步:步:logisticlogistic回归分析(回归分析(5 5)结果解读:结果解读:平行线检验平行线检验p=0.480p=0.480,说明应,说明应变量各水平与自变量间的回归方程平行。变量各水平与自变量间的回归方程平行。58应变量为无序多分类资料的应变量为无序多分类资料的logisticlogistic回归回归u应变量的水平数大于应变量的水平数大于2 2,且水平之间不存在,且水平之间不存在等级递增或递减关系的资料为无序多分类等级递增或递减关系的资料为无序多分类资料。资料。uSPSSSPSS中通过多项中通过多项logisticlogistic过程实现。过程实现。59【例例
28、5 5】为了研究胃癌及胃癌前病变核仁组织变化情况,分析为了研究胃癌及胃癌前病变核仁组织变化情况,分析核仁组成区嗜银蛋白颗粒数量及大小在胃炎、胃组织不典型核仁组成区嗜银蛋白颗粒数量及大小在胃炎、胃组织不典型增生和胃癌三种胃疾病中的变化规律以及临床的诊断意义,增生和胃癌三种胃疾病中的变化规律以及临床的诊断意义,共检测共检测129129名患者,结果如下,试做名患者,结果如下,试做logisticlogistic回归分析:回归分析:60SPSS软件操作软件操作第第1 1步:定义变量步:定义变量61第第2 2步:输入步:输入原始数据原始数据62第第3 3步:加权设置步:加权设置选择选择数据数据加权个案(
29、加权个案(WW)将将f f移入移入频率变量频率变量63第第4 4步:步:logisticlogistic回归分析(回归分析(1 1)选择选择分析分析 回归回归多项多项logisticlogistic64第第4 4步:步:logisticlogistic回归分析(回归分析(2 2)将将a a、b b移入移入协变量,协变量,Y Y移入移入因变量因变量65第第4 4步:步:logisticlogistic回归回归分析(分析(3 3)设置设置选项选项勾上勾上expexp(B B)的的95CI95CI。66第第4 4步:步:logisticlogistic回归分析(回归分析(4 4)结果解读:结果解读:
30、相对于胃炎的相对于胃炎的OROR值以及值以及OROR的的95%CI.95%CI.67数据挖掘分析第二部分68u数据挖掘研究设计数据挖掘研究设计基本概念基本概念基本步骤基本步骤uClementine Clementine 软件应用软件应用基本操作基本操作关联规则关联规则决策树决策树聚类分析聚类分析69研究时有无设计干预因素?研究时有无设计干预因素?实验性研究实验性研究观察性研究观察性研究是否随机是否随机有无对照组有无对照组分析性研究分析性研究描述性研究描述性研究时间方向时间方向队列队列研究研究非随机非随机对照对照试验试验随机随机对照对照试验试验病例病例对照对照研究研究横断面横断面研究研究有有无无
31、有有无无否否是是暴露暴露结局结局结局结局暴露暴露70观察性研究观察性研究 由于医学研究对象的特殊性,在很多科由于医学研究对象的特殊性,在很多科研中,研究者不能主动地控制研究因素。这研中,研究者不能主动地控制研究因素。这种在自然状态下,观察疾病发生、发展、诊种在自然状态下,观察疾病发生、发展、诊治过程中表现出来的特点和规律,以阐述疾治过程中表现出来的特点和规律,以阐述疾病的分布特征,认识病因和影响因素,分析病的分布特征,认识病因和影响因素,分析防治过程中相关规律和特征的研究方法,称防治过程中相关规律和特征的研究方法,称为观察性研究。为观察性研究。71数据挖掘研究数据挖掘研究u 基于数据分析方法角
32、度的分类基于数据分析方法角度的分类u本质上属于观察性研究本质上属于观察性研究u研究资料来源日常诊疗工作资料研究资料来源日常诊疗工作资料u应用的技术较传统研究更先进应用的技术较传统研究更先进u分析工具、理论模型与传统研究区别较大分析工具、理论模型与传统研究区别较大72数据挖掘从大量数据中寻找其规律的技术,是统计学、数据库技术和人工智能技术的综合。数据挖掘从数据中自动地抽取模式、关联、变化、异常和有意义的结构。数据挖掘利用已有的数据,数据收集过程不经过特意的科研设计,目的是发现规律,而不是验证假设。73u数据挖掘研究设计数据挖掘研究设计基本概念基本概念基本步骤基本步骤uClementine Cle
33、mentine 软件应用软件应用基本操作基本操作关联规则关联规则决策树决策树聚类分析聚类分析74第一步骤选择第三步骤挖掘第二步骤处理第四步骤分析2数据挖掘步骤目标数据目标数据预处预处理及变理及变换换变换后的数据变换后的数据数据挖掘数据挖掘算法算法解释解释/评估评估清理筛选清理筛选数据挖掘研究的基本步骤数据挖掘研究的基本步骤75第一步:选择数据第一步:选择数据收集获取原始数据收集获取原始数据u 就是根据研究目的,进行需要被挖掘分析就是根据研究目的,进行需要被挖掘分析的原始数据采集。的原始数据采集。u评估数据的可获得性。可以采用较小规模评估数据的可获得性。可以采用较小规模的数据对问题的可行性进行初
34、步研究。的数据对问题的可行性进行初步研究。u原始数据可能会分布于不同的信息系统中,原始数据可能会分布于不同的信息系统中,需要对信息系统充分理解,并有相应的技需要对信息系统充分理解,并有相应的技术实现数据的导出。术实现数据的导出。u原始数据的采集非常费时费力,通常在研原始数据的采集非常费时费力,通常在研究工作中占相当大的比重。究工作中占相当大的比重。76病人基本信息:HIS病人检验信息:LIS病人检查信息:PACS等医技系统病人诊疗过程信息:电子病历病人收费信息:HIS。77海量数据,大量的业务数据。海量数据,大量的业务数据。问题也很多,标准不统一,很难分析。问题也很多,标准不统一,很难分析。与
35、临床相关的电子病历系统结构化与临床工与临床相关的电子病历系统结构化与临床工作量之间的矛盾。作量之间的矛盾。中医系统中医系统医疗科研信息一体化系统医疗科研信息一体化系统军队系统军队系统中国重大疾病临床诊疗数据库中国重大疾病临床诊疗数据库78第二步:处理数据第二步:处理数据数据预处理部分,把数据转换成比较容易被数据挖掘的格式及内容。内容处理:年龄 六十岁60 有个还分组:老年、青年、等格式处理:年龄 出生日期1950年转成63。79为什么需要预处理为什么需要预处理数据不完整含观测噪声不一致包含其它不希望的成分数据清理通过填写空缺值,平滑噪声数据,识别删除孤立点,并解决不一致来清理数据。污染数据的普
36、遍存在,使得在大型数据库中维护数据的正确性和一致性成为一个及其困难的任务。垃圾进、垃圾出。80污染数据形成的原因污染数据形成的原因滥用缩写词数据输入错误数据中的内嵌控制信息不同的惯用语重复记录丢失值拼写变化不同的计量单位过时的编码81例:中药、证型、症状的预处理例:中药、证型、症状的预处理预处理是最为关键的一步正异名的处理:白头翁、白术、白头公错别字:青篙、青蒿省略字:龙牡、龙骨,牡蛎炮制预处理82建立一个中药规范表建立一个中药规范表编号编号编号编号规范后名称规范后名称规范后名称规范后名称原始中药名称原始中药名称原始中药名称原始中药名称101400101400白茅根白茅根白茅根白茅根药典药典药
37、典药典白茅根白茅根白茅根白茅根药典药典药典药典茅根茅根茅根茅根别册别册别册别册生白茅根生白茅根生白茅根生白茅根切切切切101600101600白术白术白术白术药典药典药典药典白术白术白术白术药典药典药典药典土白术土白术土白术土白术别册别册别册别册冬术冬术冬术冬术别册别册别册别册土炒白术土炒白术土炒白术土炒白术切切切切炒白术炒白术炒白术炒白术切切切切土白术土白术土白术土白术切切切切漂白术漂白术漂白术漂白术切切切切晒白术晒白术晒白术晒白术切切切切101601101601白术白术白术白术(焦)(焦)(焦)(焦)焦白术焦白术焦白术焦白术焦冬术焦冬术焦冬术焦冬术101602101602白术白术白术白术(
38、生)(生)(生)(生)生白术生白术生白术生白术101603101603白术白术白术白术(炭)(炭)(炭)(炭)白术炭白术炭白术炭白术炭101604101604白术白术白术白术(煨)(煨)(煨)(煨)煨白术煨白术煨白术煨白术101605101605白术白术白术白术(制)(制)(制)(制)制白术制白术制白术制白术83建立证型规范表建立证型规范表编号编号编号编号规范后规范后规范后规范后证型词证型词证型词证型词频次频次频次频次证型词原文(后缀数字为医案中出现的频次)证型词原文(后缀数字为医案中出现的频次)证型词原文(后缀数字为医案中出现的频次)证型词原文(后缀数字为医案中出现的频次)300905300
39、905血瘀血瘀血瘀血瘀591591血瘀血瘀血瘀血瘀349349瘀血瘀血瘀血瘀血8585血淤血淤血淤血淤1919血滞血滞血滞血滞3030血行不畅血行不畅血行不畅血行不畅1515血凝血凝血凝血凝1212气血瘀滞气血瘀滞气血瘀滞气血瘀滞1010气血运行气血运行气血运行气血运行不畅不畅不畅不畅1010血行瘀滞血行瘀滞血行瘀滞血行瘀滞6 6气血郁滞气血郁滞气血郁滞气血郁滞5 5气血阻滞气血阻滞气血阻滞气血阻滞5 5气血壅滞气血壅滞气血壅滞气血壅滞5 5血涩血涩血涩血涩4 4血结血结血结血结4 4气血涩滞气血涩滞气血涩滞气血涩滞3 3炼血成瘀炼血成瘀炼血成瘀炼血成瘀3 3气血凝滞气血凝滞气血凝滞气血凝滞3
40、 3血阻血阻血阻血阻3 3干血干血干血干血2 2气血不畅气血不畅气血不畅气血不畅 2 2气血瘀阻气血瘀阻气血瘀阻气血瘀阻2 2血行不通血行不通血行不通血行不通2 2血结成瘀血结成瘀血结成瘀血结成瘀化热化热化热化热1 1血行瘀阻血行瘀阻血行瘀阻血行瘀阻1 1血行受阻血行受阻血行受阻血行受阻1 1痰血互结痰血互结痰血互结痰血互结1 1气血奎滞气血奎滞气血奎滞气血奎滞1 1血滞不畅血滞不畅血滞不畅血滞不畅1 1血分有寒夹血分有寒夹血分有寒夹血分有寒夹瘀瘀瘀瘀1 1寒凝血泣着寒凝血泣着寒凝血泣着寒凝血泣着而成瘀而成瘀而成瘀而成瘀1 1气碍血行气碍血行气碍血行气碍血行1 1血不得行血不得行血不得行血不得
41、行1 1血运不畅血运不畅血运不畅血运不畅1 1血有郁热血有郁热血有郁热血有郁热1 184建立症状规范表建立症状规范表编号编号编号编号规范后规范后规范后规范后症状症状症状症状频次频次频次频次医案中原文症状用词及使用频次医案中原文症状用词及使用频次医案中原文症状用词及使用频次医案中原文症状用词及使用频次201105201105体瘦体瘦体瘦体瘦289289体瘦体瘦体瘦体瘦9393消瘦消瘦消瘦消瘦4242形体消形体消形体消形体消瘦瘦瘦瘦3434形瘦形瘦形瘦形瘦3333形体瘦形体瘦形体瘦形体瘦弱弱弱弱2828形体削瘦形体削瘦形体削瘦形体削瘦5 5形体较形体较形体较形体较瘦瘦瘦瘦5 5面黄肌面黄肌面黄肌面
42、黄肌瘦瘦瘦瘦4 4体质瘦体质瘦体质瘦体质瘦弱弱弱弱3 3赢瘦赢瘦赢瘦赢瘦3 3形体瘦小形体瘦小形体瘦小形体瘦小3 3身体瘦身体瘦身体瘦身体瘦弱弱弱弱3 3瘦弱瘦弱瘦弱瘦弱3 3体质消体质消体质消体质消瘦瘦瘦瘦2 2身体嬴身体嬴身体嬴身体嬴瘦瘦瘦瘦2 2形体不丰形体不丰形体不丰形体不丰2 2形体偏形体偏形体偏形体偏瘦瘦瘦瘦2 2身体较身体较身体较身体较瘦瘦瘦瘦2 2形体瘦形体瘦形体瘦形体瘦削削削削2 2嬴瘦嬴瘦嬴瘦嬴瘦2 2形嬴形嬴形嬴形嬴1 1形体枯形体枯形体枯形体枯瘦瘦瘦瘦1 1形体消形体消形体消形体消索索索索1 1形体渐形体渐形体渐形体渐瘦瘦瘦瘦1 1形体日形体日形体日形体日嬴嬴嬴嬴1 1
43、身瘦身瘦身瘦身瘦1 1肌肉消肌肉消肌肉消肌肉消削削削削1 185第三步:挖掘分析第三步:挖掘分析 运用工具和算法,进行数据挖掘分析,运用工具和算法,进行数据挖掘分析,完成分类、关联、聚类、估计、预测等功完成分类、关联、聚类、估计、预测等功能,发现数据中的规律。能,发现数据中的规律。86数据挖掘主要方法数据挖掘主要方法Debt$40KQ QQ QQ QQ QII123456factor 1factor 1factor 2factor 2factor nfactor n神经网络神经网络 Neural NetworksNeural Networks聚类分析聚类分析 ClusteringCluster
44、ingOpenAccntAdd NewProductDecreaseUsage?TimeTime序列分析序列分析 Sequence AnalysisSequence Analysis决策树决策树 Decision TreesDecision Trees 倾向性分析关联分析关联分析 AssociationAssociation87数据挖掘软件应用数据挖掘软件应用88SPSS ClementineSPSS Clementine89WEKA90第四步:结果解释第四步:结果解释结合专业知识,进行数据挖掘分析结果的解释,阐明规律,以及规律的临床价值。结果解释是数据挖掘研究的关键,从发现的规律进一步延伸出
45、其实际意义,是整个研究工作的成果所在。91u数据挖掘研究设计数据挖掘研究设计基本概念基本概念基本步骤基本步骤uClementine Clementine 软件应用软件应用基本操作基本操作关联规则关联规则决策树决策树聚类分析聚类分析92Clementine Clementine 软件应用软件应用93Clementine 12.0安装方法安装方法1.下载,存放到下载,存放到D盘,重新命名为盘,重新命名为“Clementine V 12”2.打开打开 ClementineV12-点击运行点击运行setup.exe按提示完按提示完成安装到默认目录:成安装到默认目录:C:Program FilesSPS
46、SIncClementine12.0 3.D:CLE12.0Clementine12Crack破解破解 复制该文件下复制该文件下 “lservrc”“PlatformSPSSLic7.dll”两个文件,粘贴到两个文件,粘贴到C:Program FilesSPSSIncClementine12.0bin 文件夹文件夹下,覆盖原来的同名字文件下,覆盖原来的同名字文件9495u数据挖掘研究设计数据挖掘研究设计基本概念基本概念基本步骤基本步骤uClementine Clementine 软件应用软件应用基本操作基本操作关联规则关联规则决策树决策树聚类分析聚类分析9697ClementineClemen
47、tine用户界面用户界面操作区操作区u节点一个图标代表在 Clementine 中进行的一个操作。u工作流一系列连接在一起的节点。可视化编程可视化编程98选项板选项板源节点源节点用来将数据读入用来将数据读入 Clementine 中中记录选项节点记录选项节点在记录上进行操作在记录上进行操作一条记录是一种一条记录是一种“情形情形”或一或一“行行”数据数据字段选项节点字段选项节点在字段上进行操作在字段上进行操作一个字段是一个变量一个字段是一个变量图形节点图形节点在建模之前和之后用来可视化数据在建模之前和之后用来可视化数据建模节点代表有效建模算法建模节点代表有效建模算法注意:建模算法产生生成的模型注
48、意:建模算法产生生成的模型99增加一个节点在选项板上双击节点,自动放置节点到数据流区域.将节点从选项板拖放到数据流区域中在选项板上点击一个节点,然后在数据流区域中点击一下100编辑一个节点编辑一个节点在节点上右击,展开一个节点点击“编辑”在菜单上还可以选择连接、断开连接、重命名、注释、复制、删除、载入、保存等操作101 2006 SPSS Inc.连接节点使用鼠标中键来连接节点使用鼠标中键来连接节点在数据流区域上,把一个在数据流区域上,把一个节点连接到另一个上,可节点连接到另一个上,可以通过鼠标中间键点击和以通过鼠标中间键点击和拖放来完成(如果拖放来完成(如果您您的鼠的鼠标没有中间键,可以通过
49、标没有中间键,可以通过按住按住“AltAlt”键来模拟这个键来模拟这个过程)过程)通过双击来连接节点通过双击来连接节点双击选项板上的节点,自动双击选项板上的节点,自动把新节点连接到数据流区域把新节点连接到数据流区域中的中的“中心中心”节点上节点上使用鼠标中键使用鼠标中键102删除节点之间的连接在连接箭头的头部按住鼠标右键选择“删除连接”103Clementine Clementine 中读取数据格式中读取数据格式文本文件EXCELSPSS 数据文件ODBC 兼容的数据库SAS 数据文件用户输入文件104读取原始文件添加变量文件节点到数据流区域编辑节点指向文件通过编辑进行原始数据设置105读取文
50、本文件106读取读取EXCELEXCEL文件文件107读取其他数据文件原始数据是什么文件类型,则采用什么节点原始数据是什么文件类型,则采用什么节点108定义字段类型类型节点指定字段的一系列重要属性;指定字段类型、方向和缺失值;Clementine 可以自动设置变量类型,用户也可以强制指定类型;为建立模型,指定字段的方向;指定缺失值以及如何处理缺失值;变量值检查保证字段值满足一定的设置;字段类型帮助您理解正在使用的数据,是一些数据准备和所有建模程序所必需的.109连续型 用于描述数值,如0-100 或者0.75-1.25 内的连续值一个连续值可以是整数、实数或日期/时间离散型用于当一个具体值的精