医学数据处理一般过程.ppt

资源描述

Click to edit Master title style,Click to edit Master text styles,Second level,Third level,Fourth level,Fifth level,*,第一讲医学数据处理,主要内容：,一、误差的分类及其特点,二、医学数据处理的一般原则与要求,三、科学计数器的使用,四、医学数据双录入与核查的方法及软件,一、误差,（,Error）,的分类及其特点,统计学上所说的误差，泛指测量值与真实值之差，以及样本指标与统计指标之差。,统计学的三大核心思想：,1.,差误思想,2.,权重思想,3.,分布思想,误差分类（,物理、化学）,按误差来源：装置误差、环境误差、方法误差、人员误差,系统误差（,System error,）,由特定原因引起、具有一定因果关系并按确定规律产生,按掌握程度：已知误差、未知误差,按,特性规律,：系统误差、随机误差、粗大误差,-,有规律可循,装置、环境、动力源变化、人为因素,再现性,-,偏差（,Deviation,）,理论分析,/,实验验证,-,原因和规律,-,减少,/,消除,随机误差（,Random error,）,因许多不确定性因素而随机发生,偶然性（不明确、无规律）,概率和统计性处理（无法消除,/,修正）,粗大误差（,Abnormal,error,）,检测系统各组成环节发生异常和故障等引起,异常误差,-,混为系统误差和偶然误差,-,测量结果失去意义,分离,-,防止,按变化速度：静态误差、动态误差,误差（,error）,误差,随机误差,非随机误差,随机测量误差,抽样误差,系统误差,非系统误差（过失误差）,二、医学数据处理的一般原则与要求医学数据统计学处理的,核心思想,是在数据处理环节消除或控制非随机误差，保证统计分析能建立在真实的抽样误差的基础上。,医学数据的统计处理涉及医学专业知识、统计专业知识、处理数据的经验和技巧等各方面，是一门很高超的艺术。在处理数据过程中，原始数据的采集和录入，数据的管理，统计方法的恰当选用，统计软件的熟练使用等，都是必须重视的环节。,（一）原始数据的录入,1.,原始数据的记录形式,实验研究,的原始数据,原始数据常列成类似,表,1,的二维结构，即行列结构的数据集,形式。在表,1,中，每一行成为一条,记录,(record),，或一个观察单,位（,case,）,;,每一列称为一个,变量,（,variable,），用以表示变量,、项目或观察指标等。表,1,记录的原始数据是一个由,274,例观察,单位和,11,个变量组成的数据集。,原始数据中，变量分为,标识变量,和,分析变量,两种。标识变,量主要用于数据管理，包括数据的核对与增删等，是研究记录,中不可缺少的内容，如表,1,中的“病人编号”和“病案号”即为标,识变量。分析变量则是数据分析的主要内容，表,1,中除上述,2,个,标志变量外，其他,9,个变量均为分析变量。,病人病案号性别,编号,年龄,生理评分,肾毒性,黄疸,昏迷,肌酐,胆固醇,肾功能预后,1,004757,男,26,14,无,有,无,520,-,治愈,2,007950,女,31,13,无,无,无,523,4.5,治愈,3,011093,男,55,17,无,无,无,209,3.3,治愈,4,017555,男,29,9,无,无,无,1303,4.1,治愈,.,.,.,.,.,.,.,.,.,.,.,.,.,.,.,.,.,.,.,.,.,.,.,.,.,.,.,.,.,.,.,.,.,274,279183,女,88,15,有,无,无,331,6.1,丧失,表,1,肾衰病人预后研究的临床资料记录,返回,分析变量又分为,反应变量,（,response variable,）和,解释变量,(explanatory variable),。反应变量是表示试验效应或观察结果大小的变量或指标。解释变量又称为,指示变量,（,indicator,）、,分组变量,（,grouping variable,）、,分类变量,（,categorical variable,）、协变量等。,根据研究目的以及变量间的相互关系，各变量的作用并非一成不变。,例如，表,1,中，若进行肾衰病人的预后研究，则“肾功能预后”为反应变量，其余的研究变量为解释变量；若分析与“肾毒性”、“黄疸”和“昏迷”等临床症状相对应的“生理评分”、“肌酐”和“胆固醇”等观察指标的影响，“肾毒性”、“黄疸”和“昏迷”可分别看作分组,(,解释,),变量，“生理评分”、“肌酐”和“胆固醇”则可分别看作反应变量。,调查研究,的原始数据,表,2-1,一般情况调查表,一、一般情况,1.,姓名,:_2.,年龄,:,（周岁）,3.,联系电话：,_,4.,家庭住址,:,乡镇（街,/,路）,村（居委会）,5.,民族,:0=,汉族,1=,回族,2=,朝鲜族,3=,满族,4=,蒙族,5=,其他,_|_|,6.,出生地：,县,6.1,本地居住年限,:|_|_|,年,7.,你目前的职业：,8.,你的医疗保障形式：,|_|,0=,完全自费,1=,农村新型合作医疗,2=,城镇职工医疗保险,3=,商业医疗保险,4=,其他（请注明）,9.,你家目前有无负债：,0=,否,1=,有,|_|,9.1,若“有”，有多少负债？,元,9.2,负债原因是：,|_|,0=,因病负债,1=,教育负债,2=,盖房,3=,子女婚嫁,4=,其他（请注明）,10.,全家每年总支出：,元,10.1,其中：食品支出：,元,10.2,药品、医疗服务支出：,元,10.3,生产性支出：,元,10.4,教育支出：,元,详情见附件一,2.,原始数据的录入,在进行统计分析前，原始数据需录入计算机。录入的文件类型大致有：数据库文件，如,dBASE,、,FoxBASE,、,Lotus,、,EPI info,等；,Excel,文件；文本文件，如,word,文件、,WPS,文件等；统计应用软件的相应文件，如,SPSS,数据文件、,SAS,数据文件、,Stata,数据文件等。目前，上述文件类型绝大多数都可以,相互转换（数据访问）。,录入数据时，应遵循,便于录入，便于核查，便于转换，便于分析,的原则。,便于录入,是指尽可能地减少录入工作量，例如，录入时，用数值变量取代了字符变量，可以大大节约录入的时间和费用。,便于核查,是指一定要设有标识变量，以方便数据核查。,便于转换,是指录入数据时要考虑不同软件对字节和字符的要求。例如，文本文件的变量名字节可以不受限制，但,SPSS,软件,12.0,以前的版本、,Stata,软件等的变量名要求不超过,8,个字节；又如，有的软件不识别中文。因此，数据录入时，定义变量名时尽可能用英文，且不超过,8,个字节，而中文名可用标记的方式（,label,）表示，如,SPSS,数据文件（图,1,）中将性别标记为,1=“,男”，,2=“,女”。,便于分析,是指每项研究最好录成一个数据文件，录入的格式满足各种统计分析的需要，这样才能保证分析数据时的高效和全面。,（二）数据处理中的几个基本问题,1.,数据核查,为确保录入数据的准确性和真实性，数据录入后，首先须对录入的数据进行核查。核查准确性可分两步进行。第一步逻辑检查，如果某变量的最大或最小值不符合逻辑，则数据有误，例如，在,SPSS,数据文件中，当变量“年龄”的最大值为“,300”,时，一定有误。利用软件的查找功能可立即找到该数据，然后根据该数据对应的标识值找出原始记录，更正该数据。如本例可查到该数据对应的“病人编号”为“,27”,，查原始记录的年龄为“,30”,。第二步数据核对，将原始数据与录入的数据一一核对，错者更正。有时，为慎重起见，采用双份录入的方式，然后用程序作一一比较，不一致者一定是录错的数据。,数据核查的另一项任务是对数据的真实性作出初步判断。例如，用流式细胞仪测量蛋白质的分子量时，通常这类数据的变异系数,CV,较大，多会大于,20%,，如果为,50%,甚至更大都不罕见。如若某一实验此类指标的数据算得的,CV,小于,5%,，应考虑其真实性。,2.,离群数据的处理当个别数据与群体数据严重偏离时，被称为离群数据（,outlier,）或极端数据（,extreme value,）。统计软件一般都有判断离群数据的方法。判断离群数据有多种方法，例如，,SPSS,软件对其的定义为：观察值距箱式图（,box plot,）的箱体底线（第,25,百分位数）或顶线（第,75,百分位数）的距离为箱体高度（四分位间距）的,1.53,倍时被视为离群点；观察值距箱体底线或顶线的距离超过,3,倍的箱体高度时被视为极端值。,如有离群数据出现，可分为两种情况处理。一种是，如果确认数据有逻辑错误，又无法纠正，可直接删除该数据。例如，若有一数据中某病例的身高变量为“,1755”cm,，且原始记录亦如此，又无法再找到该病例时，显然这是个错误的记录，只能删除，另一种是，若数据并无明显的逻辑错误，可将该数据剔除前后各做一次分析，若结果不矛盾，则不剔除；若结果矛盾，并需要剔除，必须给以充分合理的解释，例如用何种方法确定偏离数据，该数据在实验中何种干扰下产生等。,3.,统计方法前提条件的检验应用参数方法进行假设检验往往要求数据满足某些前提条件，如两个独立样本比较,t,检验或多个独立样本比较的方差分析，均要求方差齐性，因此需要做方差齐性检验。如果要用正态分布法估计参考值范围，首先要检验资料是否服用正态分布。在建立各种多重回归方程时，常需检验变量间的多重共线性和残差分布的正态性。,总之,医学数据处理的,核心思想,是在数据处理环节消除或控制非随机误差，保证统计分析能建立在真实的抽样误差的基础上。,一般原则：对录入的数据进行核查,1.,逻辑核查,+,与原始数据一一校对,2.,数据双录入的核查（双录入的一致性核查,+,逻辑核查）,*,三、计算器的使用,1,、计算器的功能：提供进行算术、统计以及科学计算的途径。,2,、计算器窗口的显示模式：标准型和科学型。两种模式的切换方式：单击“查看”菜单,3,、打开计算器的方法：“开始”“程序”“附件”“计算器”,4,、使用标准型型计算器进行简单运算,计算器中各按钮的功能：,MC,：清除存储区中的数据,MR,：将存储区中的数据调出到显示栏中，存储区中数值不变,MS,：存储当前的显示值,M+,：将当前显示值加上已经储存的数据后存入存储区,CE,：清除现有数据重新输入,C,：清除全部数据结果和运算符,练习题,：（,1,）计算（,91+85+52+14+45-56+45,）,/8,的值（,2,）计算,28/,（,4+4,）,+74*2+20*9+67+39,的值（,3,）计算,1/7,的值,5,、使用科学型计算器求,2,、,8,、,90,、,74,、,20,、,67,、,39,的平均值。,步骤,1,：切换到科学型计算器步骤,2,：输入数字,2,步骤,3,：单击“,Sta”,按钮，出现了一个“统计框”窗口步骤,4,：单击“,Dat”,按钮，此时显示框中的数据被带到“统计框”中步骤,5,：按如下顺序输入：,8Dat92Dat74Dat20Dat67Dat39Dat,，则所有输入的数据被带到统计框中。步骤,6,：单击“计算器”窗口中的“,Ave”,按钮，即可计算出“统计框”窗口中所有数据的平均值。,练习题,：（,1,）求,6,、,20,、,23,、,73,、,33,、,87,的平均值（,2,）求,16,、,17,、,23,、,45,、,38,、,43,、,99,的平均值,四、医学数据双录入与核查的方法及软件,一般原则：对录入的数据进行核查,1.,逻辑核查,+,与原始数据一一校对,2.,数据双录入的核查（双录入的一致性核查,+,逻辑核查）,*,数据双录入的核查一般程序,用数据管理软件进行数据双录入，录入后第一步进行双录入的一致性核查，双录入核查时发现不一致的地方再查找对照原始数据（表）进行校正；第二步任选一个数据文件使用命令语句或程序进行逻辑核查。,实例,(,一,),数据的双录入：由两人采用相同的统,计软件独立录入同一数据。数据录入软件,为数据管理型软件，如,EPIDATA,VFP,EPIINFO,，等。本例采用,EPIDATA,录入。,（二）数据的一致性核查,（三）数据的逻辑核查：数据由,EPIDATA,导入,VFP,，使用命令语句进行逻辑核查,

展开阅读全文