资源描述
单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,中医药统计学,一、绪论,二、统计描述,三、概率分布,四、参数估计与假设检验,五、,t,检验,六、方差分析,七、双变量相关与回归分析,八、,x,2,检验,九、基于秩次的非参数检验,十、实验设计,十一、调查设计,十二、协方差分析,十三、多重线性回归分析,十四、,logistic,回归分析,十五、生存分析,十六、聚类分析和判别分析,十七、主成分分析与因子分析,十八、,Meta,分析,第一部分 绪论,第二部分,SPSS,基本操作,第三部分,Epidata,基本操作,第一部分 绪论,统计是以数据为食物的动物,统计的本业是消化数据,并产生有营养的结果。它的本质,和母牛相差不多。,Data,Statistics,Information,Grass,Cow,Milk,现实意义,统计学是科研和论文过程中最核心的方法学,!,医学统计学定义,统计工作的基本步骤,统计指标分类,统计学几个基本概念,定 义,统计学,(statistics),是关于数据的学问,是一门从数据中提取信息、知识的科学与艺术,包括研究设计、收集资料、整理资料、分析资料和结果报告等步骤。,Statistics is the science dealing with the,collections,analysis,interpretation and presentation,of masses of numerical data.(Webster,国际大词典,),Statistics is the,science and art,of dealing with variation in data through collection,classification and analysis in such a way as to obtain reliable result.,不列颠百科全书,方法的,类型,研究和应用程度,统计学,理论统计学,应用统计学,描述统计学,推断统计学,理论统计学,(theoretical statistics),:即数理统计学,(mathematical statistics),,主要探讨统计学的数学原理和统计公式的来源。它把研究对象一般化、抽象化,以概率论为基础,从纯理论的角度,对统计方法加以推导论证,其中心内容是统计推断问题,其实质是以归纳方法研究随机变量的一般规律。,应用统计学,(applied statistics),:是数理统计学的原理方法在不同学科领域中的具体应用。例如,数理统计学在生物学中的应用形成生物统计学,(biostatistics),;在医学中的应用形成医学统计学,(medical statistics),、卫生统计学,(health statistics),和中医药统计学,(statistics for traditional Chinese medicine),。,生物统计学,(Biostatistics),应用于生物学研究,又称生物测量学,Biometry,医学统计学,(Medical Statistics),应用于医学研究,侧重于医学的生物性,卫生统计学,(Health Statistics),应用于医学研究,侧重于医学的社会性,几个关联紧密的学科,统计学的发展有,4,个明显趋势,随着数学的发展,统计学吸收和运用的,数学方法,越来越多。,统计方法与计,算机技术,相结合,已渗透到所有的学科部门,以统计学为基础的边缘学科不断形成。,统计与,实质性学科,、统计软件、现代信息相,结合,,所发挥的功效日益增强。,统计学的作用与功能已从描述事物现状、反映事物规律,向抽样推断、预测未来变化的方向发展,己成为具有,方法论性质,的综合性学科。,统计学的基本思想、研究方法和特点,统计学的基本思想:,可归纳为变异的思想、概率的思想和随机抽样思想。,统计学的研究方法:,统计学的基本研究方法是由观察到的个体特征归纳推断总体某种特征的归纳推理法。,医学统计学定义,统计工作的基本步骤,统计指标分类,统计学几个基本概念,统计工作一般分为四个步骤,即:,研究设计、收集资料、整理资料和分析资料。,这四个步骤是密切联系、不可分割的,任何一个环节发生缺陷都会影响研究结果的质量及研究工作的成败。,统计工作的步骤及内容,统计描述,统计推断,参数估计,假设检验,统计指标,统计图表,研究设计,收集资料,整理资料,分析资料,一、研究设计,研究设计,(research design),就是拟订一份科学合理的总体计划,围绕研究目的将有关的研究方法与步骤的纲目拟订出来,用以保证取得一个较为客观的研究结果。,完善的研究设计可把误差减少到最低程度,并能比较准确地估计误差大小,还可将多种处理因素合理地安排在一个实验中,提高研究效率,用较少的人力、财力、物力和时间,最大限度地获得丰富可靠的资料。,研究设计包括实验设计、临床试验设计和调查设计,这三者均涉及专业设计与统计学设计,其内容一般包括:研究目的、步骤、受试者的选择、处理的拟定、观察指标、项目和方法等。,1.,专业设计,(specialized design),用什么方式、方法来验证假说或回答有关的专业问题。其目的在于保证研究成果的实用性、可行性和创新性。,(具体的专业人员做),2.,统计学设计,(statistical design),如何合理地安排实验内容,对实验结果如何进行有效地分析。其目的在于保证结果的经济性、可重复性和科学性。,(统计人员做,研究生自己要能做),一般情况下,有什么样的研究设计,就跟着什么样的实验或试验,就有适当的统计分析方法相对应。科研工作者一定要树立设计优先的思想,只有缜密、完善的研究设计,才能获得真实可靠的研究结果。,二、收集资料,收集资料,(data collection),是指根据研究目的,按照设计要求去准确、及时和完整地收集原始资料。资料来源与要求如下:,1.,日常医疗工作记录和报告卡,医院各科门诊病历、住院病历、健康检查记录、各种医疗检查记录等都是统计工作最宝贵的原始材料,它们是医学观察和实践经验的真实体现,许多疾病发生、发展、诊治的规律等大量信息均隐藏在这些记录之中,它可大大节约调查的人力与经费,而且在某些情况下登记误差很小。,2.,统计报表:,医疗工作统计报表是国家取得系统的统计资料的一种形式。它具有统一的表式、统一的指标和统一的报送时间和程序,是由各级医疗保健机构根据国家规定,定期逐级上报的。它是拟定医疗保健工作计划与措施,检查与总结工作时的科学依据,也是科学研究的基础资料。例如,反映医院门诊与住院两方面工作量和医疗质量的指标有:门诊人次数,急诊人数,各科门诊工作量与比重,门诊患者疾病构成情况,住院患者疾病的构成、治愈率、好转率、病死率,床位使用情况,病历书写情况。医院基本建设情况,医院教育、科研情况等。,(管理类研究较常用),3.,专题调查与试验研究资料:,某些专题单靠统计报表和医院记录是不够的,如分析发病规律、探讨疾病病因和某种药物、疗法的疗效及其机制时,必须进行专题调查或试验才能取得所需资料。例如气功治疗高血压的研究,同病异治疗法的对比研究,(,如益气法、活血法、益气活血法对冠心病心绞痛疗效比较研究,),以及采集、种植中草药情况,民间秘方、验方和正常人或患者某项指标正常值、标准值的调查研究,(,如舌象、脉象调查,),等。,(科研项目、研究生论文等),4.,其他来源:,统计分析所需要的数据有时可来自公共或共享资料,如可取自官方或人民团体机构发布的医疗卫生服务调查、研究分析的统计汇总资料、公开发表的有关报告、商业性数据库以及专题研究文献等。,比如:,meta,分析就是利用已有的文献资料进行研究。,三、整理资料,整理资料,(sorting data),是把收集到的原始资料,有目的、有计划地进行科学的加工,(,如分组或汇总,),,使其系统化、条理化,以便更好地揭示所研究事物的规律性,有利于统计分析。它包括以下步骤,:,1.,资料核查:,首先检查原始记录,对错记或漏记记录,要及时纠错补漏;其次是标记可疑值,必要时对可疑值重新观测。,2.,设计分组与汇总:,根据资料的性质或数量特征,对资料进行分组,然后按照不同组段将原始资料进行归纳计数。,3.,数据录入:,是借助数据录人软件,(,如,Epidata,、,Excel,、,Access,软件,),,将原始资料输入计算机的过程。在数据录人前,对数据类型要明确,数值资料直接录人,分类资料进行数值化编码录入。在数据录人时可采用平行双录人法,以保证录人的正确,也可通过逻辑检查的方法,对录人数据进行核查。,目前,很多大型的研究利用网络信息系统进行数据录入与数据核查。,四、分析资料,分析资料(,analysis data),即统计分析,主要包括统计描述,(statistical description),与统计推断,(statistical inference),。,统计描述,是指用适合资料性质的统计指标、统计图表等,对资料的数量特征及其分布规律进行表达,以反映变量值的水平、频率、联系强度。,统计推断,是通过抽样研究,根据样本资料所提供的信息,对未知总体做出具有一定概率性的估计和推断,包括参数估计和假设检验两方面。,医学生在进行中医药研究中,对资料的统计分析可以借助专门的计算机统计软件,依照操作程序输人数据和选用正确的统计分析方法,由计算机快速、准确地进行数据统计分析,并制作出相应的统计表和统计图。,医学统计学定义,统计工作的基本步骤,统计指标分类,统计学几个基本概念,一、变量与变量值,变量,(variable),是指观察单位的某研究特征,反映个体观察值间参差不齐的现象,(,即变异,),,其测定结果称为变量值,(value of variable),或观察值。,例如,患者的呼吸、脉搏、体温和血压等,中医脉诊中患者的不同脉象等。观察测量的对象不同,得到的结果,(,值,),不同。例如,每个患者的血压测定结果就称为血压变量值,简称为血压值。根据变量的不同观察结果,将变量分为数值变量和分类变量。,1.,数值变量,(numerical variable),又称定量变量,(quantitative variable),或计量变量,(measurement variable),,是由仪器、工具或其他定量方法测定的某项指标。它可以是连续变量也可以是离散变量。,在某一区间可取任何值的数值连续变量:如身高,(cm),、体重,(Kg),、血压,(kPa),等;,在某一区间只可取有限的几个值的数值离散变量:如家庭人口数、脉搏,(,次,/,分,),等。,2.,分类变量,(categoncal variable),又称定性变量,(qualitative variable),或计数变量,(count variable),,是将事物按不同的属性归类,清点每一类中包含的个数,反映事物属性与类别的指标。,它分为二分类变量与多分类变量,后者又分为有序多分类变量与无序多分类变量。,(1),二分类变量:指变量的观察结果只有相互对立的两种情况。,例如:检验结果分为,阳性、阴性,,,性别变量分为,男性、女性,,,中医面色分为,常色、病色,等。,(2),多分类变量:指变量的观察结果表现为多种情况,有以下两种类型:,有序多分类变量:即等级变量,归类的组别之间有程度或等级上的差别。如:,疗效表现为,无效、好转、有效、痊愈,患者的某种疾病特征用,“,+,”,号的个数来表示其不同程度,如患者尿糖情况分为,一、,+,、,+,、十,+,等。,无序多分类变量:分类变量的观察结果表现为不同的属性特征。,如中医苔色表现为,白苔、黄苔、灰黑苔,:婚姻状况分为,未婚、已婚、离异、丧偶、再婚,;血型分为,A,、,B,、,O,、,AB,型;职业分为:,工人、农民、商人,等。,二、变量转换,根据研究的需要,有时可将分类变量转换成数值变量,数值变量变为分类变量。,1.,分类变量转换成数值变 量,(1),二分类变量的转换:用,0,与,1,表示。,男性,=1,,女性,=0,有效,=1,,无效,=0,有,=1,,无,=0,(2),多分类变量的转换:,无序多分类变量:需要构造哑变量,哑变量也称标识变量,它是二值变量。一般按如下方式构造哑变量:某一个无序多分类变量有,m,个水平,需引人,m-1,个二值的哑变量,并以其中之一为基准。哑变量的最终结果无论有无统计学意义,都是相对于基准而言的。,哑变量,A,B,AB,O,X1,1,0,0,0,X2,0,1,0,0,X3,0,0,1,0,无序多分类构造哑变量,有序多分类变量:在构造哑变量方面同无序多分类变量,也可以不构造哑变量,用,0,,,1,,,2,,,依次代表不同水平,达到分类变量转换成数值变量的目的。,哑变量,文盲,小学,中学,大学,X1,1,0,0,0,X2,0,1,0,0,X3,0,0,1,0,变量,文盲,小学,中学,大学,X,0,1,2,3,有序多分类构造哑变量,有序多分类不构造哑变量,2.,数值变量转换成分类变量,年龄,分类,表示,18,40,岁以下,0,19,40,岁以下,0,20,40,岁以下,0,26,40,岁以下,0,32,40,岁以下,0,43,40,岁以上,1,45,40,岁以上,1,54,40,岁以上,1,56,40,岁以上,1,70,40,岁以上,1,3.,数值变量间的转换,对数转换,平方根转换,倒数转换,。,资料类型的判断,病例号,年龄,性别,身高,血型,心电图,尿,WBC,职业,1,35,女,1.65,A,正常,教师,2,44,男,1.74,B,正常,工人,3,26,男,1.80,O,正常,职员,4,25,女,1.61,AB,正常,农民,5,41,男,1.71,A,异常,+,工人,6,45,女,1.58,B,正常,+,工人,7,50,女,1.60,O,异常,+,干部,8,28,男,1.76,AB,正常,+,干部,9,31,女,1.62,O,正常,军人,三、统计资料的分类,统计资料由变量及其观察值组成,统计资料的分类与统计变量的分类相对应。,1.,数值资料,(numerical data),是反映数值变量的资料,又称定量资料,(quantitative data),或计量资料,(measurement data),。例如,测量,100,名男大学生的身高所获得的资料就是数值资料。,这类资料的统计描述有集中趋势与离散趋势,统计分析方法有,t,检验、,u,检验、方差分析、秩和检验、若干种多元统计分析等。,2.,分类资料,(count data),是反映分类变量的资料,也称为定性资料,(qualitative data),或计数资料,(count data),。它分为二分类和多分类资料,多分类资料又分为有序和无序多分类资料,有序多分类资料又称等级资料,(ordinal data),。,将,100,名男大学生按性别分组:,男,53,例,女,47,例,,此资料就是,二分类资料,;,按血型分组,:,A,型,39,例、,B,型,20,例、,o,型,17,例、,AB,型,24,例,,此资料就是,无序多分类资料,。,用某中药治疗某种疾病患者,50,名,按临床疗效分为,痊愈,22,例、显效,12,例、好转,5,例、无效,5,例、恶化,6,例,,此资料就为,有序多分类资料,或等级资料。,分类资料的统计描述常用相对数,统计分析方法有,x,2,检验,(,卡方检验,),、,u,检验、秩和检验、部分多元统计分析等。,医学统计学定义,统计工作的基本步骤,统计指标分类,统计学几个基本概念,一、同质与变异,1.,同质,(homogeneity),指观察单位间影响研究指标的因素相同。由于研究指标的影响因素往往难以完全控制,甚至未知,因此在实际工作中观察单位的同质是指对研究指标的影响较大的、可以控制的主要因素相同或基本相同。,如研究某地区儿童的身高,则要求影响身高这一指标的主要因素,(,如年龄、性别、民族,),要相同,而不能控制的因素,(,遗传、营养等,),可不要求相同。,同质是研究的前提条件,同质是相对的,对于身高指标,成年男女有别而不同质;而对于脉搏指标,成年男女无别而同质。,同质是一范畴,是纳入和排除对象的标准。临床研究课题的纳入、排除标准设置的目的就是研究对象同质的需要。,2.,变异,(variation),指在同质的基础上各观察单位间某观察指标的差异。如同年龄、同性别、同民族、同地区儿童的身高间的差异,称为身高的变异。,统计学研究的对象是具有变异的事物,,统计学是处理变异数据,的科学,没有同质性就够不成一个总体供人们研究,没有变异就无需统计学。,二、总体与样本,1.,总体(,population),是根据研究目的所确定的同质观察单位的全体。观察单位是指被研究总体中的某个单位,即个体。,例如,描述某地,16,岁以上男性血脂水平,则该地所有,16,岁以上的男性居民血脂的测量值就构成所描述的总体,而其中每个,40,岁以上的男性血脂测量值就是一个观察单位,即个体。,总体随研究目的不同而所含的范围也不同。根据研究目的,有些总体中观察单位数是有限的或可知的,称为有限总体。有些总体的观察单位数是无限的或不可知的,称为无限总体。,对无限总体中每个个体逐一考核是做不到的,对观察对象具有危害与损伤的总体中每个个体逐一考核是不允许的,对个体数量很大的有限总体逐一考核需花费较多的人力、物力和时间。所以,对总体特征与性质的认识一般情况下不是采用逐一考核每个个体的方法,而常采用抽样研究。,2.,样本,(sample),是从总体中随机抽取的具有代表性的个体的集合。,抽样研究,(sampling study),是从总体中抽取样本,通过样本的定量或定性测量结果来推断总体。抽样研究的目的是用样本的特征正确地、可靠地推断总体的特征,所以样本必须对总体具有良好的代表性。,图示:总体与样本,population,sample2,sample1,sample3,sample4,sample5,抽样研究应注意如下几点,:,(1),样本含量足够大。,样本含量指样本所包含的观察单位数,(,即样本例数,),,统计学中常用,n,表示。研究资料的变异程度大小、研究方法、研究结果精确性等决定样本含量。,(2),遵循随机抽样原则。,随机抽样是指从研究总体中按一定的概率抽取部分观察单位的方法。随机不是随便或随意,随机是指研究总体中每个观察单位被抽到样本中的机会均等。,统计学中常用的随机抽样方法有,单纯随机抽样,、,系统抽样,、,分层抽样,和,整群抽样,,在进行大规模的流行病学调查时,还结合使用以上,4,种抽样方法,把抽样过程分为不同阶段进行,称多级抽样。,(3),样本的构成分布应基本上与总体构成分布保持一致。,三、参数与统计量,反映总体的统计指标称为参数,(parameter),用希腊字母表示,如,(,总体算术均数,),、,(,总体标准差,),;,反映样本的统计指标称作统计量,(statistics),,用拉丁字母或英文字母表示,如,x(,样本均数,),、,s(,样本标准差,),。,总体,样本,抽取部分观察单位,统计量,参 数,估计,四、误差,误差,(error),泛指观测值与真实值之差以及样本统计量与总体参数之差。其主要分为非随机误差与随机误差。,非随机误差包括系统误差和过失误差,随机误差包括随机测量误差和随机抽样误差。,1.,系统误差,(systematic error),是指在实际观测过程中,由受试对象、研究者、仪器设备、研究方法、非实验因素影响等原因造成的有一定倾向性或规律性的误差。流行病学称之为偏倚,(bias),。例如,,仪器初始状态未调整到零,标准试剂未经校正所致的误差。,其特点为:观察值有系统性、方向性、周期性的偏离真值,可以通过严格的实验设计和技术措施消除。,2.,过失误差(,gross error,),由于观察过程中不仔细而造成的错误判断或记录。研究中应认真检查核对,否则将会影响研究结果的准确性。,这种误差实际上是错误,应该避免。,比如:点错小数点,3.,随机测量误差,(random measurement error),是指各种偶然因素,(,如电压、环境温度等,),的影响造成同一对象多次测定的结果不完全一样,或同一样品由不同观察者观测所造成的差异。该误差不可避免,但要控制在允许范围内。提高操作者熟练程度可以减少这种误差。,4.,随机抽样误差(,random sampling error),简称抽样误差,(sampling error),,是由于随机抽样所引起的,样本统计量与总体参数,间的差异以及各样本统计量之间的差异。,医药现象的变异总是客观存在的,因而在抽样研究中,抽样误差总是不可避免的,但它有一定的分布规律,是可估计、可控制的。,样本对总体的代表性越好,抽样误差越小,反之,样本对总体的代表性越差,抽样误差越大。,五、概率,若在相同条件的控制下对某试验进行,n,次重复,一个事件出现的次数,m,和总的试验次数,n,之比,称为这个事件在这,n,次试验中出现的,频率,(frequency),。,当试验次数,n,很大时,该频率将趋近于一个较稳定的常数,这个常数即该事件发生的,概率,(probability),。,概率是反映随机事件发生的可能性大小的度量,用,p,表示,取值范围为,0,P1,。,随机事件,的概率为,0P1,;,必然事件,的概率等于,1,,即,P(u)=1,;,不可能事件,的概率等于,0,,即,P(v)=0,。,某事件发生的概率愈接近于,1,,表示该事件发生的可能性越大;反之,愈接近于,0,,表示该事件发生的可能性越小,统计学通常把,P0.05,或,P,目标变量名,1,跳转值,2,目标变量名,2,”,(,1V23,“2,3V40”,5end,6write AUTOJUMP V30,),Must Enter,Yes/No,Repeat,Yes/No,Value Labels,“数值,+,对应的文字解释”,2.3,建立核查文件,(*.chk),2.3,建立核查文件,(*.chk),2.3,建立核查文件,(*.chk),AFTER ENTRY,AFTER FILE,AFTER RECORD,AUTOJUMP,AUTOSAVE,AUTOSEARCH,BACKUP,BEEP,BEFORE ENTRY,BEFORE FILE,BEFORE RECORD,CLEAR,CLEAR COMMENT LEGAL,COLOR,COMMENT LEGAL,CONFIRM,COMMENT(*),CONFIRMFIELD,COPYTOCLIPBOARD,DEFINE,EXECUTE,EXIT,GOTO,HELP,HIDE,UNHIDE,IFTHEN,INCLUDE,JUMPS,KEY,LABEL,LABELBLOCK,LEGAL,LET,MISSINGVALUE,MUSTENTER,NOENTER,QUIT,RANGE,RELATE,REPEAT,TOPOFSCREEN,TYPE,TYPE COMMENT,TYPE STATUSBAR,UNHIDE,WRITENOTE,Check,命令:,2.3,建立核查文件,(*.chk),Check,运算符和函数:,运算符(,Operators,),算术运算符(,Arithmetic Operators,),逻辑运算符(,Logical Operators,),关系运算符(,Relational Operators,),函数(,Functions,),算术函数(,Arithmetic Functions,),字符串函数(,String Functions,),日期和时间函数(,Date and Time Functions,),其它函数,2.3,建立核查文件,(*.chk),算术运算符(,Arithmetic Operators,),运算符,运算,数据类型,结果类型,指数,整数,小数,小数,小数,+,加法,整数,整数,小数,小数,字符串,字符串,-,减法,整数,整数,小数,小数,*,乘法,整数,整数,小数,小数,/,除法,整数,整数,小数,小数,div,整数除法,整数,整数,mod,余数,整数,整数,2.3,建立核查文件,(*.chk),逻辑运算符(,Logical Operators,),运算符,运算,数据类型,结果类型,not,否,布尔逻辑,布尔逻辑,and,和,布尔逻辑,布尔逻辑,or,或,布尔逻辑,布尔逻辑,xor,异或,布尔逻辑,布尔逻辑,关系运算符(,Relational Operators,),运算符,运算,比较值,比较类型,=,等于,可比,布尔逻辑,不等于,可比,布尔逻辑,大于,可比,布尔逻辑,=,大于等于,可比,布尔逻辑,2.3,建立核查文件,(*.chk),ABS(X),ARCTAN(X),COS(X),EXP(X),COUNTMISSING(),FLOAT(X),FRAC(X),INT(X),INTEGER(X),LN(X),算数函数(,Arithmetic Functions,),PI,POWER(BASE,EXPONENT),RANGE(A,B,C),ROUND(X),SIN(X),SQR(X),SQRT(X),SUM(),TRUNC(X),2.3,建立核查文件,(*.chk),UPPER(S),LOWER(S),COPY(S),POS(SUBSTR;S),字符串函数(,String Functions,),LENGTH(S),STRING(X),SOUNDEX(S),日期和时间函数(,Date and Time Functions,),DATE(D,M,Y),DAY(D),DAYOFWEEK(D),MONTH(D),NOW,NUM2TIME(D),TIME2NUM(F),TODAY,WEEKNUM(D),YEAR(D),其它函数,ISBLANK,、,RECORDCOUNT,、,RECORDNUMBER,EpiData,数据管理和录入流程,建立调查表文件,创建数据库,建立核查文件,录入数据,数据库管理,输出数据,2.4,数据录入,与直接录入不同的是,加入了质量控制功能,2.4,数据录入,2.4.1,在变量间转换,在数据录入过程中,激活下一个变量,可以使用,Enter,、,Tab,、键、或用鼠标直接点击目标变量。,如果使用鼠标实现在变量间的跳转,则,CHECK,文件中设置的录入规则通常无效;因此常用,Enter,键完成跳转。,如果变量允许录入的字符数全部录满,则光标会自动移到下一个变量,除非在,CHECK,文件中设置了,CONFIRM,命令。,如果想回到上一个变量,可以按,Shift+Tab,键,或键。按,Ctrl+Home,键可以直接回到数据录入表格的第一个变量。选择,Ctrl+End,则可以直接跳转到最后一个变量。,2.4,数据录入,2.4.2,在记录间转换,1,:移到第一条记录,2,:移到前一条记录(或,Ctrl+PgUp,,或,F7,),3,:移到下一条记录(或,Ctrl+PgDn,,或,F8,),4,:移到最后一条记录,5,:开始录入新记录(或,Ctrl+N,),6,:删除记录或恢复一条删除的记录(或,Shift+Delete,),非永久删除,误删的记录可以恢复也可以导出;,如需永久删除还需进行一下操作!,1,2,3,4,5,6,2.4,数据录入,永久清除记录,2.4,数据录入,2.4.3,查找记录,要寻找的记录号已知,“查找”,“定位记录”,2.4,数据录入,2.4.3,查找记录,要寻找的记录号未知,“查找”,“查找记录”,2.4,数据录入,2.4.4,查找变量,一、,EpiData,简介,二、数据库的建立,三、数据库的管理与维护,四、数据库的输出与输入,五、其他需要注意的问题,EpiData,数据管理和录入流程,建立调查表文件,创建数据库,建立核查文件,录入数据,数据库管理,输出数据,三、,数据库的管理和维护,3.1,数据库的追加与合并,3.2,双录入核查,3.3,数据库相关信息的管理,3.1,数据库的追加与合并,将两个数据库合并建成另一个新的数据库,追加(,append,),是将两个数据结构完全一样或基本上一样的数据库连起来。两个数据库是端对端(,end-to-end,),又称串联。,合并(,merge,),是将两个结构不同、但是有,1-3,个相同变量(如,,ID,变量或,key,变量)的数据库合并。这样的两个数据库合并是边对边(,side-to-side,),又称并联。,3.1,数据库的追加与合并,(,1,)数据库的追加,3.1,数据库的追加与合并,(,1,)数据库的追加,以,A,库结构为准,,B,库中多余的变量将被忽略,两库中相同名称的变量,则新创建数据库对应的变量类型将以数据库,A,为准,新库中包括,A,库和,B,库中的所有变量,3.1,数据库的追加与合并,(,2,)数据库的合并,3.1,数据库的追加与合并,(,2,)数据库的合并,以,A,库结构为准,只合并标识变量在两个数据库中完全匹配的记录,合并两个数据库中的所有记录,两库共有的标识变量,唯一不重复,可同时选择,1,3,个变量,不一定要设置,KEY,或,key unique,3.2,双录入核查,3.2.1,录入中核查,双录入实时校验,3.2,双录入核查,3.2.1,录入中核查,双录入实时校验,3.2 双录入核查,3.2.2,录入后核查,在准备双录入时,可以利用菜单中的“工具”“复制,rec,文件结构”功能,将已经建立好的一个数据库的结构(可以包括已经建好的,CHECK,文件)拷贝、另存为一个新的数据库。,3.2,双录入核查,3.2.2,录入后核查,双录入完毕后,通过“数据处理”“一致性检验(对调查表双录入后的差异比对)”,选择要进行比较的两个数据库的文件名,并设置核查过程中的一些参数。,3.2,双录入核查,3.2.2.1,选择关键变量,要想比较两个数据库,必须指定一个或多个关键变量。这个(些)关键变量被用来匹配两个数据库中对应的记录,或者说是需要比较的记录。可供选择的关键变量列表中只包括那些在两个数据库中都存在的变量。,3.2,双录入核查,3.2.2.2,选项设置,(1),不考虑已被删除的字段:,不核对标记为删除的记录。,(2),不考虑文本字段:,不核对字符型变量和大写字母的字符型变量。,(3),在文本字段中不考虑字母的大小写:,程序会将“,Smith,”和“,sMiTh,”识别为输入一致。,(4),报告字段类型的区别:,如果选择了这一项,双录入核查报告中会报告如下信息:两个数据库中是否有相同的变量名、但是却是不同的变量类型。,(5),不考虑,rec,文件,B,中的缺失记录:,程序不会弹出类似“数据库,A,中的某些记录在数据库,B,中没有发现)样的信息。如果只重复录入原始数据库中部分记录,可以勾选这一项。选择原始(完整)的数据库作为数据库,A,,部分录入的作为数据库,B,。,3.2,双录入核查,双录入一致性检验报告结果,3.2,双录入核查,双录入一致性检验报告结果,3.2,双录入核查,双录入一致性检验报告结果,通过生成某些报表,可以了解数据库及其录入变量的相关信息,并将这些信息存档、打印。与数据库有关的信息包括:数据库名称、文件大小、最后修改的日期、变量数、记录数、是否有相应的,CHECK,文件等。与录入变量有关的信息包括:变量名、变量标签、变量类型、变量长度、应用的,CHECK,命令等。,3.3 数据库相关信息的管理,3.3 数据库相关信息的管理,3.3 数据库相关信息的管理,3.3,数据库相关信息的管理,一、,EpiData,简介,二、数据库的建立,三、数据库的管理与维护,四、数据库的输出与输入,五、其他需要注意的问题,EpiData,数据管理和录入流程,建立调查表文件,创建数据库,建立核查文件,录入数据,数据库管理,输出数据,四、数据库的输出和输入,4.1,数据库的输出(,Export Data,),4.2,数据库的输入(,Import Data,),*.,txt,*.,dbf,*.,sas,*.,sav,*.,xls,*.,dta,统计分析软件,*.,CHK,*.,REC,*.,QES,*.,REC,四、数据库的输出和输入,四、数据库的输出和输入,4.1,数据库的输出,四、数据库的输出和输入,4.2,数据库的输入,一、,EpiData,简介,二、数据库的建立,三、数据库的管理与维护,四、数据库的输出与输入,五、其他需要注意的问题,五、其他需要注意的问题,Qes,文件中要尽量与原始问卷结构相同,以减少数据录入中的失误;,Chk,文件中多设置数值标签,导出时,,Chk,文件要放在同一文件夹中,且与,Rec,文件同名;,在进行大量录入前,数据库建立者要自己录入,10,20,份左右,以发现存在的问题;,数据转出时,特别是较大数据库转出时,可试用几种格式(如,.xls,.sps,.txt,),注意每种转出格式的局限性;,制定配套文件:数据录入说明,谢 谢!,
展开阅读全文