医学研究数据管理与统计分析-Epidata.ppt

资源描述

单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,*,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,*,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,*,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,*,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,*,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,*,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,*,医学研究的数据管理与分析,（第,2,版）目录,第一章,绪论,第二章,现场调查技术,第三章,调查表设计,第四章,常用研究设计的数据统计分,析过程,第五章,数据处理及其质量控制,第六章,数据库和常用数据库管理软,件简介,第七章,EpiData,软件应用,第八章,SPSS,软件应用（一）,第九章,SPSS,软件应用（二）,第十章,SPSS,软件应用（三）,第十一章,SPSS,软件应用（四）,第十二章,常见统计图表的软件实现,第十三章,EpiCalC,软件应用,第十四章,Review Manager,软件应用,第十五章,Epi Info 2002,软件简介,第十六章,SAS,软件简介,1,搜集资料,整理与分析资料,调查（研究）项目,分析表（指标）,研究目的,回答,统计分析步骤,调查研究步骤,研究设计思路与数据管理分析步骤,解释、呈现结果,2,确定调查和研究的目的是选定研究指标的依据,研究指标又是研究目的的具体体现,一、明确调查和研究的目的,了解,参数,，用以说明总体。,研究,变量间的关系,，通过确立统计学联系来,探索病因或验证疗效等。,3,6,四、确定研究项目，拟定调查表（问卷）,调查和研究项目的确定,：,分析项目、备选项目,调查表和原始数据记录表的设计,7,根据研究设计类型确定所需样本量计算公式。,相关参数：,一类错误的概率,：,即检验水准，,越小所需样本含量越多，对于相同的检验水准，双侧检验比单侧检验所需的样本含量更大，,通常取,0.05,。,把握度,(power),1-,一般,0.8-0.9,单侧检验还是双侧检验，单侧检验所需样本量小，双侧检验所需样本量大。,五、样本含量的估计,8,常用,样本含量的估计,软件：,EpiCalc 2000,9,常用软件：,EPI INFO,10,常用软件：,OPENEPI,11,直接观察法,采访法,包括面访、调查会及信访、电话访问等,六、原始资料的收集,原始资料的收集方式,12,七、调查和研究的质量控制,真实性,（效度）,可靠性,（信度）,偏倚及其如何控制？,如何评价？,13,录入前的核对,录入计算机，建立数据库（,database,）,Excel,、,Access,、,EpiData,、,STATA,、,SPSS,、,SAS,软件等,录入后的核对和整理,逻辑检查、核对 ,排序（,sorting,）,建立新变量,数据的编码和转换,缺失值的处理,八、数据资料的整理,14,Dbase,FoxBase,，,Visual FoxPro,，,Lotus,数据录入和管理软件,15,用,EPIDATA,构建调查表数据库,16,17,用,EPIDATA,录入调查表,统计分析常用软件,18,让我们从一个简单的调查开始,.,研究目的,：了解本班同学,年龄、性别、身高,等信息。,Step1:,建立调查表,文本编辑软件：,Word,19,STEP 2:,调查表数据录入,20,EpiData,软件概述,一、,EpiData,的设计,设计者：,丹麦的,Jens M、Michael Bruus,和英国的,Mark Myatt,编程者：,丹麦的,Michael Bruus,开发思路和原理：,基于,Epi Info 6.0,二、软件下载和登记注册,下载地址：,www.epidata.dk/download.htm,三、版本信息,EpiData 1.5,（2001年2月22日）；,EpiData 2.1a（2002,年）,EpiData 3.02（2004）,；,EpiData 3.10（NOW）,四、安装和系统要求,可在,Windows 95/98/NT/2000/XP/7,等操作系统下运行,21,EpiData,软件概述,EpiData,软件安装如同拷贝程序文档一样简单。例如，它可以从,U,盘运行，并且占用内存很小（,2.5M,）。,由于捐助和志愿者的工作，软件,免费,发布。,22,EPIDATA,程序下载与安装,www.epidata.dk/,23,EPIDATA,程序下载与安装,24,数据录入,EPIDATA,软件,EpiData,软件是在吸收,DOS,版的,Epi Info 6.0,软件优点基础上开发研制的,Windows,版软件。,25,EPIDATA,软件,它一方面吸收了,Epi Info,软件的长处，同时又极具自身特色。,与视窗版,Epi Info,软件相比，占用空间小，更加简单易学，且界面友好，可以很方便的对数据进行储存、核对和管理等，,26,用,EpiData,软件进行数据录入和管理，将产生三种基本的文件；,每种文件具有固定的后缀，在数据录入和管理中发挥不同作用。,（1）调查表文件：,后缀为,.,QES,。,通过建立调查表文件，系统根据特定规则自动定义数据文件的结构，包括变量名、变量类型和长度等，用于数据录入。,（2）数据文件：,后缀为,.,REC,。,数据文件包含录入的数据信息以及已经定义好的编码，用于数据的统计分析。,（3）核对文件：,后缀为,.,CHK,。,通过建立核对文件，系统将定义数据录入的有效性规则。,EpiData,Entry,的文件组成,27,EPIDATA,ENTRY,的特点,调查表设计便捷,数据核查功能强大且实现简便,与调查表形式一致的可视数据录入界面,数据转换功能强大,28,讲了半天，,EpiData,究竟长什么样？,29,请打开电脑上,EPIDATA,主程序,为何我的电脑上没有欢迎使用,EpiData,?,30,EpiData,软件的窗口介绍,31,编辑过程工具条,工具栏,数据表预览,粘贴,字段编辑器,编码编辑器,32,调查表文件的建立,数据文件：,原始数据,文件结构（库结构）,字段名,字段类型,字段长度,调查表信息数据文件,33,建立调查表文件,建立调查表文件是建立数据库、实现数据录入和管理的第一步。,34,建立调查表文件有以下几种方法：,第一种：在菜单中，点击“文件”（,F,ile,）“生成调查表文件,QES,文件”,第二种：在工作栏的工作流程中，点击“,1,.,打开文件”（,1,.Define Data,）“建立新,QES,文件”,第三种：在按钮栏中，点击,这时窗口中会在工作区显示一个空白的文档，你可以在此文档中键入调查表内容和框架，编辑完成后，将调查表文件保存，文件的扩展名统一为,.QES,。,35,假定现有一调查表如下，如何建立,.QES,文件？,调查表,姓名：,_,性别：（,1,）男（,2,）女,身高：,_._ CM,出生日期：,_,年,_,月,_,日,36,如果按原调查表格式直接建立数据库，结果会怎样？,37,必须定义字段名和字段类型,字段类型,字段编码,自动,ID号,数字,#.#,文本,_,加密字段,大写文本,逻辑（是,/否）,日期,自动插入日期,声音提示,38,调用字段编辑器：,第一种方法：,直接按,CTRL-Q,键。,第二种方法：,在编辑器工具条上点击,字段编辑器,图标。,手工输入或使用,字段编辑器,39,字段类型介绍,数值型字段：,#,，#.#,；仅接受数字和空格，不输按空格处理，分析时作缺失值处理，以,“,.,”,显示。数字位数由,“,#,”,个数决定，小数位数由小数点右边的,“,#,”,个数确定。最长可达14位，小数点按1个字符计算。,40,文本型字段：,包括三种。一种是常用的文本（或下划线、或底线）型字段：,_,；该型字段由连续下划线来定义，长度由下划线字符个数决定，最大值为80，空白字段（字段内容空缺）时，数据管理时将按缺失值处理。另一种为大写文本型字段：。,41,日期型字段：,包括两种。一种为常用日期字段：,、,，,分美式、英式两种，输入时即进行合法性检验；只需输入日期，系统自动插入斜杠。另一种为自动日期型字段：、；,储存或修改数据时该字段自动输入系统日期，如系统日期正确，也即当天日期。,42,自动,ID,号型字段：,；,这是一种专用字段，用作记录识别号，文件的第一个记录为1，以后记录自动赋值顺次较前增加1，并自动保证编号的唯一性。输入数据时光标跳过此字段。如需使第一个记录号大于1，则可在“文件”菜单“选择项”中的“高级设置”中设置。,逻辑型字段（即布尔函数型字段）：,；,只接受,Y、N、,空格或回车键。后两者作缺失值处理。,Y、N,字符输入后即转为大写字母。,43,我们按照这些要求重新建立数据库，这次应该成功了吧？,先预览一下,44,怎么会这样？,45,定义字段名（,FIELD NAMES,）,以调查表中字段的第一个词命名,（,F,irst word in question is field names,）,使用,内的内容自动添加字段名（,Au,t,omatic field names,）,46,定义字段名（,FIELD NAMES,）,“文件”（,F,ile,）“选项”（,O,p,tion,）“生成,REC,文件”（,Create data file,）在“如何生成字段名”（,How to generate field names,）中选择字段的命名方式。,47,“更新问题为实际文件名”如果未勾选,48,预览显示的并非真实的字段名,如“姓名”,真实的字段名是,FIELD1,49,50,按,命名规则修改调查表，然后预览生成,REC,文件,51,别忘了修改“选项”，,否则,会是这样的,52,制作调查表文件可用,EpiData,编辑器进行。,也可用,Word,或其它文本编辑器编写。注意，必须以纯文本格式存盘，文件后缀名必须是“.,qes”。,也可在其它文本编辑器编写，再粘贴到,EpiData,编辑器窗口。,如何编写调查表文件,53,编写调查表文件注意事项（一）,编写过程中及时保存文件，文件类型为,.qes,文件,。,系统只会根据“特殊符号”来定义一个输入字段（包括类型和长度），并根据符号前的字符给字段命名。建议在编写过程中利用,“字段快速清单”,插入“特殊符号”，即：选择字段类型，定义好长度后，按“插入”图标，可避免由于“特殊符号”输入错误而不能产生有效的输入字段。,调查表用中文编写时，可用,定界符（“,”,）,将字段名定义为英文字符（英文字母或英文字母阿拉伯数字），有利于数据库的管理和其他软件的统计分析。注意：“,”,必须为半角型，而不能是全角型,(“,”,),。,54,尽可能把字段定义,数值型,，有利于统计分析。如糖尿病史“,dmhis”,可定义为数值型字段，“,1”,表示“有”，“,0”,表示“无”。,调查表文件,格式尽可能和原调查表一致,，有利于直观录入数据。,如果用其他文本编辑器编写,.qes,文件，在运行,EpiData,后，打开该,.qes,文件即可编辑。,调查表文件的编写是否符合要求，可通过,“数据表预览”,来查看。,编写调查表文件注意事项（二）,55,数据文件的产生和修改,主菜单选择数据导入,/,导出菜单“根据,QES,文件生成,REC,文件”,在工作过程工具条按第二个按钮“生成,REC,文件”,在编辑器菜单,REC,文件菜单选择“生成,REC,文件”,56,生成,REC,文件,57,58,请大家根据,EPIDATA,建立调查表库,data.qes,生成数据库，保存为,data.rec,59,调查表,姓名：,_,性别：（,1,）男（,2,）女,身高：,_._ CM,出生日期：,_,年,_,月,_,日,现在我们已经有了两个文件：,*.QES,调查表文件,*.REC,数据文件,*.REC,文件是根据,QES,文件生成的，用于数据录入,万一我的,QES,文件丢了怎么办？,60,数据文件结构的修改,61,调查表结构重新修改后怎么办？,数据库建立后，录入了一部分分数据，发现漏掉了一个字段，于是重新修改调查表，这里可以根据修改后的,QES,文件更新,REC,文件。,62,我一边,QQ,聊天，一边录入数据，万一录错了，软件会通知我吗？,63,嗨！有第,3,种人吗？,核对文件的建立,核对文件,：,CHECK,文件或,.CHK,文件,范围,/,合法值（,Range/Legal,）,跳转（,Jumps,）,必须输入（,MustEnter,）,重复输入（,Repeat,）,64,65,光标悬停，会提示你命令格式,66,录入错误时，软件会弹出警告,67,试试，如果将,1,改为,20,会怎样？改为,15,会怎样？,关键字段的定义,以编号,code2,为例，这个编号具有唯一性，为避免重复输入，可在,CHK,文件中定义：,code2,KEY UNIQUE 1,MUSTENTER,END,68,练习,请大家根据下列调查表内容，利用,EPIDATA,建立调查表数据库,保存为,data1.qes,，并生成,data1.rec,用于录入资料。,69,调查表,1.,地区号：,N J,2.,调查表编号：,3.,录入,ID,号：,4.,姓名：,_,5.,性别：（,1,）男,（,2,）女,6.,你吸烟吗？（,1,）否,跳问,7,（,2,）是,续问,6.1,6.1,你多在年龄开始吸烟的？,_,岁,6.2,平均每天吸烟支数？,_,支,7.,身高：,_._ CM,8.,血压值,(,收缩压,/,舒张压,),：,_/_mmHg,9.,出生日期：,_,月,_,日,_,年,10.,你是否具有下列症状？如有请在相应症状前打勾。,咳嗽咳痰发热胸痛呼吸困难咯血,11.,调查表录入日期：,_,月,_,日,_,年,70,录入时自动编码,请大家根据,data1.rec,数据库，建立,CHK,文件，保存为,data1.chk,要求：,（,1,）地区号自动录入,（,2,）编号、姓名必须录入,（,3,）性别只能填,1,或,2,（,4,）是否吸烟只能填,1,、,2,或,9,（,5,）是否吸烟能够实现跳转,（,6,）平均每天吸烟支数的范围在,1-40,之间或填,99,并请尝试录入,3,5,份调查表，存盘。,71,记录删除,此处仅是在记录加上删除标记，,彻底删除需至“工具”,”,清理,REC,文件,”,点击,72,如果研究对象是（,1,）男性，而我却录成了（,2,）女性，软件好象不会弹出警告嘛！,73,双录入核对,DOUBLE ENTRY,为了确保录入质量，可以采用双人录入法进行核对。,首先利用工具,-,复制,REC,文件结构，复制已建立好的数据库（包括,CHK,文件），另存为一新库，但已录入的数据不会被复制。,74,双录入核对,DOUBLE ENTRY,如需要，可不复制字符型变量,因为家庭住址、工作单位等很少有人愿意录入两次。,75,两次录入的一致性检验,双轨录入完成后可进行一致检验,比较两次录入不同的地方,注意选择两数据库中的匹配字段用于比较,76,77,78,调查表录入两次，比较后发现错误再修改，好象太麻烦！,有没有边录入边比较的方法？,79,双录入实时校验,先点击工具,-,准备双录入实时校验,80,双录入实时校验,指定第,1,次已录入的,REC,文件,创建,1,新的,REC,文件，用于双录入,81,双录入实时校验,82,应注意录入调查表的顺序,显示数据,83,浏览数据库,其它一些常用功能,打印调查表,（在数据录入窗体下）文件,-,打印数据表,84,将数据库存档,工具,-,创建压缩文件,可以将指定目录下所有文件、仅,EPIDATA,文件或单个文件压缩、打包和保存。（,ZIP,）,需要的时候再利用“工具,-,解压缩文件”解压缩,85,描述数据,86,简单描述和分析数据,数据文件的导出和导入,87,数据库的纵向追加与横向合并,88,数据库的纵向追加（头,-,尾）,一般用于追加记录，如同学甲录了,50,份，同学乙录入了,60,份，现将两数据库合并成个库，共,110,份记录。,注意选项,89,数据库的横向合并（肩,-,肩）,如一份调查表包括两部分，同学甲录了,Part 1,，同学乙录入,Part 2,，现将两数据库合并成个库，包含,Part 1,和,Part 2,。,选择关键字段用于匹配，一般用记录号,NO,作为关键字段，注意需保证其唯一性,90,请大家将数据库,data3,与,data4,合并，保存为,data34.rec,请大家将数据库,data5,与,data6,合并，保存为,data56.rec,请大家将数据库,data5,与,data7,合并，保存为,data57.rec,比较异同点,91,DATA3,+DATA4,92,追加记录（注意变量是否增加）,DATA5,+DATA6,93,追加变量,DATA5+DATA7,94,追加变量及记录,EpiData,软件的工具菜单,95,EpiData,软件的选项,96,有了数据库，那就得考虑如何分析了,统计描述,统计推断,97,资料分析（,DATA ANALYSIS,）,98,(1),统计描述,（,descriptive statistic,）指用统计指标、统计表、统计图等方法，对资料的数量特征及其分布规律进行描述。,(2),统计推断,（,inferential statistic,）指如何由样本信息推断总体特征问题。,资料的分类,99,计量资料,分类资料,二分类,多分类,无序多分类,有序多分类,(,等级资料,),100,统计资料的描述,指标描述,集中位置：,算术均数、几何均数、中位数、百分位数,离散程度：,极差、标准差、方差、四分位数间距,图形描述,频数分布图,趋势图,计量资料,集中趋势的描述,算术均数,几何均数,中位数,百分位数,101,计量资料,集中趋势的描述,算术均数,几何均数,中位数,百分位数,102,mean,最适于,对称分布,资料，特别是,正态分布,资料,;,对于偏态资料，均数,不能,较好地反映其集中趋势。,计量资料,集中趋势的描述,算术均数,几何均数,中位数,百分位数,103,geometric mean,1.,等比资料，如抗体平均滴度,2.,对数正态分布资料,f,lg,x,f,G=,lg,-1,计量资料,集中趋势的描述,算术均数,几何均数,中位数,百分位数,104,Median,将一组数据按从小到大的顺序排列，位置居中的数即是中位数。,中位数常用于描述,偏态资料，开口资料，有不确定值的资料,的集中趋势；,中位数和均数在对称分布上理论上是相同的。,计量资料,集中趋势的描述,算术均数,几何均数,中位数,百分位数,105,Percentile,用于描述某个观察序列在某百分位置上的水平。,常用于确定参考值范围，亦称正常值范围。,50%,分位数就是中位数,25%,75%,分位数称四分位数,(quartile),X%,P,X,(100-X)%,计量资料,106,均数应用时的注意事项,均数适用于：单峰对称分布的资料,几何均数适用于：对数变换后单峰对称的资料,中位数适用于：任何分布资料，有不确定值的资料,计量资料,107,极差,/,全距,(range),四分位数间距,(inter-quartile range),方差,(variance),标准差,SD,(standard deviation),变异系数,CV,(coefficient of variation),描述离散程度的指标,:,计量资料,108,极差,/,全距,四分位数间距,方差,标准差,变异系数,描述离散程度的指标,:,极差（全距），描述数据分布的范围。极差大，说明数据分布较分散。,方法简单明了。,不灵敏。,不稳定。,计量资料,109,极差,/,全距,四分位数间距,方差,标准差,变异系数,描述离散程度的指标,:,四分位数,(quartile,）,Q,U,-Q,L,下四分位数即第,25,百分位数，常用,Q,L,表示；,上四分位数即第,75,百分位数，常用,Q,U,表示,计量资料,110,极差,/,全距,四分位数间距,方差,标准差,变异系数,描述离散程度的指标,:,方差是实际值与期望值之差平方的平均值，而标准差是方差的平方根。,一般情况下，总体均数未知，需用样本均数估计,计量资料,111,极差,/,全距,四分位数间距,方差,标准差,变异系数,描述离散程度的指标,:,变异系数,CV,coefficient of variation,计量资料,112,集中趋势,+,离散趋势,共同描述,均数,标准差,(,min,max,),中位数,四分位数间距,(,min,max,),变异度小，则均数代表性好！,变异度大，数据分散，则均数代表性差！,平均数所表示的集中性与变异度所表示的离散性，从两个不同的角度阐明计量资料的特征！,计量资料,假设检验,两组或多组均数比较,样本均数与总体均数比较,成组设计,两样本均数比较（,成组,t,检验,）,配对设计,资料均数比较（,配对,t,检验,）,t,检验,（两组比较）,方差分析,成组设计,多个样本均数的比较,（,one-way ANOVA,）,配伍组设计,多个样本均数比较,（,two-way ANOVA,）,多个样本均数的两两比较,（,q,检验，,Student-Newman-Keuls,法,）,多个实验组和一个对照组均数间的两两比较,（,LSD,法和,Duncan,法,）,（两组或多组比较）,113,计量资料,定量数据差别的统计意义检验小结,114,计量资料,两连续变量间的关系分析,直线回归和多元线性回归,相关分析,回归分析,Pearson,相关，,Spearman,相关,115,计量资料,分类资料统计分析,统计分析,统计描述,统计推断,参数估计,假设检验,Example,分类,资料,率、比、构成比,总体率的可信区间,2,检验、,u,检验,分类资料,分类资料统计描述,常用的相对数,率,Rate,构成比,Proportion,比,Ratio,117,分类资料,比值比（,OR,）,联系强度,病例对照研究,队列研究,相对危险度（,RR,）,118,分类资料统计推断,数据类型的转换,定量数据转换为定性数据一般比较简单，但从名义变量、等级数据转换为定量数据，则比较繁琐且损失数据信息。,对两组或多组研究单项的某项指标进行统计学检验时，数据从定量转换为定性或等级数据时，统计学的效率会下降。,119,以,正常参考值或临床诊断标准,作为分组依据。,某些定量指标尚无公认的正常参考值，可根据,均数、中位数或三分位、四分位间距值,，将其分为两组或多组。,根据数据的,分布特点,和,研究需要,，自行确定，但要能,对统计分析结果做出合理的解释。,定量数据转换为定性或等级数据,分组切割值确定方法,120,数据类型,计量资料？计数资料？,分布类型,是否正态分布？数据转换,研究设计,成组？配对？配伍组？其他？,统计分析方法和指标的选择,取决于,121,常用的数据转换类型及方法,数据类型,转换方法,举例,Poisson,分布,平方根转换,水中细菌数、单位时间放射性计数等,二项分布,反正弦函数转换,非传染病患病率、白细胞百分数、淋巴细胞转换率等,标准差与均数呈正比关系,对数转换,发汞含量,122,检验,方法,正态性,用直方图或正态概率纸进行观察,用矩法、,W,法或,D,法进行统计检验,两组方差齐性,F,检验,多组方差齐性,Bartlett,检验,常用正态性及方差齐性检验的方法,123,常用非参数统计方法小结,设计方法,参数统计方法,非参数统计方法,配对比较,配对,t,检验,符号检验*、符号等级检验,（,Wilcoxon,法）,两组比较,成组比较,t,检验,两样本等级秩和检验（,Wilcoxon Mann and Whitney,法）、中位数检验*,配伍组比较,随机区组,ANOVA,M,检验（,Friedman,法）,多组比较,完全随机设计,ANOVA,H,检验（,Kruskal and Wallis,法）,124,医学数据统计分析方法选择,流程图,125,（三组及以上均数比较）,126,医学数据统计分析方法选择,流程图,（定性数据：,RC,表资料分析）,127,医学数据统计分析方法选择,流程图,统计学分析结果如何呈现？,统计量和概率为斜体：,t,，,F,，,P,0.05,；,不是,统计表一般为,三线表,统计图、表的标注要清楚,P,值,:,应尽可能给出具体的,P,值,(,如,:P,=0.023),但目前大多数的文献中都只用,P,0.05,等说明。,文字、统计表和统计图相结合,128,统计检验结论的表达,129,由于统计检验不能得出差别的大小,因而结论不能说“有明显差异”或“有显著差异”,也不能说“差异非常显著”,更不能说“差异明显”。,正确的说法应当是“差异有统计意义”或“差异有高度统计意义”,两组有显著差异,两组差异有统计学意义,关联有统计学意义,常见统计学错误辩析（,1,）,某文献关于统计分析方法方面写道,:,“测量参数以,表示。根据性别及骨密度,(2.5s,为界,),分组,用两样本均数,t,检验对组间各形态计量参数进行统计分析,(SPSS 8.0,软件,),。样本均数与总体均数用,t,检验比较形态计量学参数与正常参考值之间的差异”,130,存在的问题：,由数据可以看到标准差是平均数的,1/2,以上,甚至接近和超过平均数。这就提示数据严重偏离了正态分布。,因为,当数据不可能为负值,(,如日数,),且样本不是过小的时候,按正态分布规律,平均数减,3,个标准差仍应是正数。,131,NOTICE,t,检验和方差分析是一种所谓“稳建的”,(robust),统计方法。就是说,当分布偏离正态分布不大时,对其结果的影响不大。,但对于计量数据还是应当先做正态性检验。如果正态性检验结果认为数据不服从正态,可以进行数据转换,但比较麻烦。简单的方法是用非参数统计，常用的有秩和检验和符号秩和检验等。,132,常见统计学错误辩析（,2,）,某文献关于燃煤型砷中毒患者皮肤组织中,P53mt,阳性表达在不同组别的差异,A,：癌；,B,：癌前病变；,C,：一般患者,133,存在的问题：,在多组计量资料的组间两两比较时不可以用“一揽子比较”。所谓“一揽子比较”是进行多组比较时进行所有的两两比较。,在进行两组间比较时我们确定了第,类错误的概率,。一般我们用,=0.05,。如果做一揽子比较,就会扩大,也即第,类错误的概率扩大了。我们就会得到过多的假阳性结果。,134,NOTICE,正确的做法应当是先做总的检验,然后再做多重比较。,本例还有各组间方差不齐的问题。不宜用方差分析,而需用非参数统计方法来处理。,135,常见统计学错误辩析（,3,）,在表,3,这个假设的例子中,Pearson,2,检验得到差别有高度统计意义的结果。是否可认为,A,药好于,B,药？,136,存在的问题：,2,组有效率的比较,用四格表,2,检验或,Fisher,精确检验法是可以的。,但是,如按疗效分成多个等级,如痊愈、显效、进步、无效,4,个疗效等级,则目前常用的,2,(,Pearson,2,),不能说明疗效的好坏。,如果我们对表,3,中任何两列进行对换，,Pearson,2,的数值也不会有变化。,137,NOTICE,对于这种顺序分类变量资料可以用,Wilcoxon,秩和检验、,Ridit,分析或,Cochran,Mantel,Haenszel,行平均分差检验,(Test of row mean scores difference),。,这三者都是合理的方法,只是评分方法有所不同而已。因为其检验的假设有所不同,其结果也会有些差别,其中以用“行平均分差检验”较好。因为可以计算出平均得分显示两者之差值。,138,

展开阅读全文