收藏 分销(赏)

医学数据处理一般过程.ppt

上传人:精*** 文档编号:12684732 上传时间:2025-11-24 格式:PPT 页数:27 大小:578.50KB 下载积分:10 金币
下载 相关 举报
医学数据处理一般过程.ppt_第1页
第1页 / 共27页
医学数据处理一般过程.ppt_第2页
第2页 / 共27页


点击查看更多>>
资源描述
Click to edit Master title style,Click to edit Master text styles,Second level,Third level,Fourth level,Fifth level,*,第一讲 医学数据处理,主要内容:,一、误差的分类及其特点,二、医学数据处理的一般原则与要求,三、科学计数器的使用,四、医学数据双录入与核查的方法及软件,一、误 差,(,Error),的分类及其特点,统计学上所说的误差,泛指测量值与真实值之差,以及样本指标与统计指标之差。,统计学的三大核心思想:,1.,差误思想,2.,权重思想,3.,分布思想,误差分类(,物理、化学),按误差来源:装置误差、环境误差、方法误差、人员误差,系统误差(,System error,),由特定原因引起、具有一定因果关系并按确定规律产生,按掌握程度:已知误差、未知误差,按,特性规律,:系统误差、随机误差、粗大误差,-,有规律可循,装置、环境、动力源变化、人为因素,再现性,-,偏差(,Deviation,),理论分析,/,实验验证,-,原因和规律,-,减少,/,消除,随机误差(,Random error,),因许多不确定性因素而随机发生,偶然性(不明确、无规律),概率和统计性处理(无法消除,/,修正),粗大误差(,Abnormal,error,),检测系统各组成环节发生异常和故障等引起,异常误差,-,混为系统误差和偶然误差,-,测量结果失去意义,分离,-,防止,按变化速度:静态误差、动态误差,误差(,error),误差,随机误差,非随机误差,随机测量误差,抽样误差,系统误差,非系统误差(过失误差),二、医学数据处理的一般原则与要求 医学数据统计学处理的,核心思想,是在数据处理环节消除或控制非随机误差,保证统计分析能建立在真实的抽样误差的基础上。,医学数据的统计处理涉及医学专业知识、统计专业知识、处理数据的经验和技巧等各方面,是一门很高超的艺术。在处理数据过程中,原始数据的采集和录入,数据的管理,统计方法的恰当选用,统计软件的熟练使用等,都是必须重视的环节。,(一)原始数据的录入,1.,原始数据的记录形式,实验研究,的原始数据,原始数据常列成类似,表,1,的二维结构,即行列结构的数据集,形式。在表,1,中,每一行成为一条,记录,(record),,或一个观察单,位(,case,),;,每一列称为一个,变量,(,variable,),用以表示变量,、项目或观察指标等。表,1,记录的原始数据是一个由,274,例观察,单位和,11,个变量组成的数据集。,原始数据中,变量分为,标识变量,和,分析变量,两种。标识变,量主要用于数据管理,包括数据的核对与增删等,是研究记录,中不可缺少的内容,如表,1,中的“病人编号”和“病案号”即为标,识变量。分析变量则是数据分析的主要内容,表,1,中除上述,2,个,标志变量外,其他,9,个变量均为分析变量。,病人 病案号 性别,编号,年龄,生理评分,肾毒性,黄疸,昏迷,肌酐,胆固醇,肾功能预后,1,004757,男,26,14,无,有,无,520,-,治愈,2,007950,女,31,13,无,无,无,523,4.5,治愈,3,011093,男,55,17,无,无,无,209,3.3,治愈,4,017555,男,29,9,无,无,无,1303,4.1,治愈,.,.,.,.,.,.,.,.,.,.,.,.,.,.,.,.,.,.,.,.,.,.,.,.,.,.,.,.,.,.,.,.,.,274,279183,女,88,15,有,无,无,331,6.1,丧失,表,1,肾衰病人预后研究的临床资料记录,返回,分析变量又分为,反应变量,(,response variable,)和,解释变量,(explanatory variable),。反应变量是表示试验效应或观察结果大小的变量或指标。解释变量又称为,指示变量,(,indicator,)、,分组变量,(,grouping variable,)、,分类变量,(,categorical variable,)、协变量等。,根据研究目的以及变量间的相互关系,各变量的作用并非一成不变。,例如,表,1,中,若进行肾衰病人的预后研究,则“肾功能预后”为反应变量,其余的研究变量为解释变量;若分析与“肾毒性”、“黄疸”和“昏迷”等临床症状相对应的“生理评分”、“肌酐”和“胆固醇”等观察指标的影响,“肾毒性”、“黄疸”和“昏迷”可分别看作分组,(,解释,),变量,“生理评分”、“肌酐”和“胆固醇”则可分别看作反应变量。,调查研究,的原始数据,表,2-1,一般情况调查表,一、一般情况,1.,姓名,:_2.,年龄,:,(周岁),3.,联系电话:,_,4.,家庭住址,:,乡镇(街,/,路),村(居委会),5.,民族,:0=,汉族,1=,回族,2=,朝鲜族,3=,满族,4=,蒙族,5=,其他,_|_|,6.,出生地:,县,6.1,本地居住年限,:|_|_|,年,7.,你目前的职业:,8.,你的医疗保障形式:,|_|,0=,完全自费,1=,农村新型合作医疗,2=,城镇职工医疗保险,3=,商业医疗保险,4=,其他(请注明),9.,你家目前有无负债:,0=,否,1=,有,|_|,9.1,若“有”,有多少负债?,元,9.2,负债原因是:,|_|,0=,因病负债,1=,教育负债,2=,盖房,3=,子女婚嫁,4=,其他(请注明),10.,全家每年总支出:,元,10.1,其中:食品支出:,元,10.2,药品、医疗服务支出:,元,10.3,生产性支出:,元,10.4,教育支出:,元,详情见附件一,2.,原始数据的录入,在进行统计分析前,原始数据需录入计算机。录入的文件类型大致有:数据库文件,如,dBASE,、,FoxBASE,、,Lotus,、,EPI info,等;,Excel,文件;文本文件,如,word,文件、,WPS,文件等;统计应用软件的相应文件,如,SPSS,数据文件、,SAS,数据文件、,Stata,数据文件等。目前,上述文件类型绝大多数都可以,相互转换(数据访问)。,录入数据时,应遵循,便于录入,便于核查,便于转换,便于分析,的原则。,便于录入,是指尽可能地减少录入工作量,例如,录入时,用数值变量取代了字符变量,可以大大节约录入的时间和费用。,便于核查,是指一定要设有标识变量,以方便数据核查。,便于转换,是指录入数据时要考虑不同软件对字节和字符的要求。例如,文本文件的变量名字节可以不受限制,但,SPSS,软件,12.0,以前的版本、,Stata,软件等的变量名要求不超过,8,个字节;又如,有的软件不识别中文。因此,数据录入时,定义变量名时尽可能用英文,且不超过,8,个字节,而中文名可用标记的方式(,label,)表示,如,SPSS,数据文件(图,1,)中将性别标记为,1=“,男”,,2=“,女”。,便于分析,是指每项研究最好录成一个数据文件,录入的格式满足各种统计分析的需要,这样才能保证分析数据时的高效和全面。,(二)数据处理中的几个基本问题,1.,数据核查,为确保录入数据的准确性和真实性,数据录入后,首先须对录入的数据进行核查。核查准确性可分两步进行。第一步逻辑检查,如果某变量的最大或最小值不符合逻辑,则数据有误,例如,在,SPSS,数据文件中,当变量“年龄”的最大值为“,300”,时,一定有误。利用软件的查找功能可立即找到该数据,然后根据该数据对应的标识值找出原始记录,更正该数据。如本例可查到该数据对应的“病人编号”为“,27”,,查原始记录的年龄为“,30”,。第二步数据核对,将原始数据与录入的数据一一核对,错者更正。有时,为慎重起见,采用双份录入的方式,然后用程序作一一比较,不一致者一定是录错的数据。,数据核查的另一项任务是对数据的真实性作出初步判断。例如,用流式细胞仪测量蛋白质的分子量时,通常这类数据的变异系数,CV,较大,多会大于,20%,,如果为,50%,甚至更大都不罕见。如若某一实验此类指标的数据算得的,CV,小于,5%,,应考虑其真实性。,2.,离群数据的处理 当个别数据与群体数据严重偏离时,被称为离群数据(,outlier,)或极端数据(,extreme value,)。统计软件一般都有判断离群数据的方法。判断离群数据有多种方法,例如,,SPSS,软件对其的定义为:观察值距箱式图(,box plot,)的箱体底线(第,25,百分位数)或顶线(第,75,百分位数)的距离为箱体高度(四分位间距)的,1.53,倍时被视为离群点;观察值距箱体底线或顶线的距离超过,3,倍的箱体高度时被视为极端值。,如有离群数据出现,可分为两种情况处理。一种是,如果确认数据有逻辑错误,又无法纠正,可直接删除该数据。例如,若有一数据中某病例的身高变量为“,1755”cm,,且原始记录亦如此,又无法再找到该病例时,显然这是个错误的记录,只能删除,另一种是,若数据并无明显的逻辑错误,可将该数据剔除前后各做一次分析,若结果不矛盾,则不剔除;若结果矛盾,并需要剔除,必须给以充分合理的解释,例如用何种方法确定偏离数据,该数据在实验中何种干扰下产生等。,3.,统计方法前提条件的检验 应用参数方法进行假设检验往往要求数据满足某些前提条件,如两个独立样本比较,t,检验或多个独立样本比较的方差分析,均要求方差齐性,因此需要做方差齐性检验。如果要用正态分布法估计参考值范围,首先要检验资料是否服用正态分布。在建立各种多重回归方程时,常需检验变量间的多重共线性和残差分布的正态性。,总之,医学数据处理的,核心思想,是在数据处理环节消除或控制非随机误差,保证统计分析能建立在真实的抽样误差的基础上。,一般原则:对录入的数据进行核查,1.,逻辑核查,+,与原始数据一一校对,2.,数据双录入的核查(双录入的一致性核查,+,逻辑核查),*,三、计算器的使用,1,、计算器的功能:提供进行算术、统计以及科学计算的途径。,2,、计算器窗口的显示模式:标准型和科学型。两种模式的切换方式:单击“查看”菜单,3,、打开计算器的方法:“开始”“程序”“附件”“计算器”,4,、使用标准型型计算器进行简单运算,计算器中各按钮的功能:,MC,:清除存储区中的数据,MR,:将存储区中的数据调出到显示栏中,存储区中数值不变,MS,:存储当前的显示值,M+,:将当前显示值加上已经储存的数据后存入存储区,CE,:清除现有数据重新输入,C,:清除全部数据结果和运算符,练习题,:(,1,)计算(,91+85+52+14+45-56+45,),/8,的值(,2,)计算,28/,(,4+4,),+74*2+20*9+67+39,的值(,3,)计算,1/7,的值,5,、使用科学型计算器求,2,、,8,、,90,、,74,、,20,、,67,、,39,的平均值。,步骤,1,:切换到科学型计算器步骤,2,:输入数字,2,步骤,3,:单击“,Sta”,按钮,出现了一个“统计框”窗口步骤,4,:单击“,Dat”,按钮,此时显示框中的数据被带到“统计框”中步骤,5,:按如下顺序输入:,8Dat92Dat74Dat20Dat67Dat39Dat,,则所有输入的数据被带到统计框中。步骤,6,:单击“计算器”窗口中的“,Ave”,按钮,即可计算出“统计框”窗口中所有数据的平均值。,练习题,:(,1,)求,6,、,20,、,23,、,73,、,33,、,87,的平均值(,2,)求,16,、,17,、,23,、,45,、,38,、,43,、,99,的平均值,四、医学数据双录入与核查的方法及软件,一般原则:对录入的数据进行核查,1.,逻辑核查,+,与原始数据一一校对,2.,数据双录入的核查(双录入的一致性核查,+,逻辑核查),*,数据双录入的核查一般程序,用数据管理软件进行数据双录入,录入后第一步进行双录入的一致性核查,双录入核查时发现不一致的地方再查找对照原始数据(表)进行校正;第二步任选一个数据文件使用命令语句或程序进行逻辑核查。,实例,(,一,),数据的双录入:由两人采用相同的统,计软件独立录入同一数据。数据录入软件,为数据管理型软件,如,EPIDATA,VFP,EPIINFO,,等。本例采用,EPIDATA,录入。,(二)数据的一致性核查,(三)数据的逻辑核查:数据由,EPIDATA,导入,VFP,,使用命令语句进行逻辑核查,
展开阅读全文

开通  VIP会员、SVIP会员  优惠大
下载10份以上建议开通VIP会员
下载20份以上建议开通SVIP会员


开通VIP      成为共赢上传

当前位置:首页 > 包罗万象 > 大杂烩

移动网页_全站_页脚广告1

关于我们      便捷服务       自信AI       AI导航        抽奖活动

©2010-2025 宁波自信网络信息技术有限公司  版权所有

客服电话:0574-28810668  投诉电话:18658249818

gongan.png浙公网安备33021202000488号   

icp.png浙ICP备2021020529号-1  |  浙B2-20240490  

关注我们 :微信公众号    抖音    微博    LOFTER 

客服