资源描述
单击此处编辑母版标题样式,*,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,第 十 章数值变量资料的统计分析,医学统计工作的基本步骤,设计(,design),收集资料,(collection of data),整理资料,(sorting data),分析资料,(analysis of data),设 计,调查设计,实验设计(三要素),处理因素,受试对象,试验效应,文献收集,设计,提出课题,调查设计,实验设计,普查,抽样调查,典型调查,病例对照调查,定群调查,基本形式,明确目的、指标,调查对象,调查人数,调查方法,收集资料方式,拟订调查表,整理分析计划,实施方案,基本要求,单纯随机,系统抽样,分层抽样,整群抽样,完全随机,(,两组、多组,),配对,配伍,交叉,对 照,均 衡,随 机,重 复,(,样本大小,),基本形式,基本原则,写出,综述,盲法,整群抽样,单纯随机,系统抽样,分层抽样,问 题,如果你是一名医务工作者,发现最近有很多人患有痛风,经过询问后发现这些患者大部分在一家新建立的蓄电池厂工作。,你对此有什么想法?又如何设计一个课题来证实你的想法?,收集,资料,资料整理,核对,分组,质量分组,数量分组,资料陈述,统计表,统计图,整 理 资 料,统计学分 析,统计学描 述,统计学推 断,参数估计,假设检验,点估计,区间估计,分析资料,362.6,359.7,285.9,300.2,333.6,334.0,288.8,338.5,341.9,344.6,337.5,298.3,364.2,367.1,338.1,316.9,332.7,324.0,282.6,369.8,398.7,338.7,308.9,392.1,368.7,352.6,378.2,346.1,278.6,318.3,323.2,322.6,382.1,322.6,309.6,352.0,372.5,399.8,335.6,341.1,371.0,355.9,362.7,368.1,332.4,405.6,328.8,358.8,405.9,362.7,316.3,338.7,402.6,379.4,329.6,354.6,331.4,349.6,419.5,324.6,329.8,357.8,312.0,313.6,338.7,328.6,291.3,329.7,361.8,392.4,414.9,319.7,327.6,395.8,358.9,289.4,366.2,387.4,298.4,408.7,389.8,362.5,354.9,352.7,316.6,348.9,348.7,401.6,334.6,308.9,367.0,345.6,401.6,357.1,304.6,338.5,388.2,355.8,329.4,321.1,320.4,313.5,339.8,409.4,387.4,378.5,392.0,352.7,376.2,388.4,344.6,308.6,347.0,428.7,369.1,311.4,376.3,349.4,289.2,366.8,371.0,387.5,413.6,348.7,392.7,401.0,313.6,366.8,387.2,319.7,329.4,357.5,348.5,346.8,406.6,357.6,338.7,341.6,349.8,289.4,366.2,357.5,298.4,336.8,387.5,342.3,366.7,387.6,332.7,329.4,150,名非接触正常成年男子的尿酸浓度(),第一节 数值变量资料的统计学描述,使用频数分布表和分布图了解资料的分布类型,一、数值变量的频数分布,(,频数表,),频数分布表:将分组标志和相应的频数列表,称之为频数分布表。,频数:数值出现的次数。,150,名正常成年男子的尿酸浓度(),尿酸(),划记,频数,频率(,%,),累计频率,(%),270,2,1.33,1.33,285,正,9,6,.00,7.33,300,正正,11,7.33,14.66,315,正正正正,22,14.67,29.33,330,正正正正,24,16.00,45.33,345,正正正正正,27,18.00,63.33,360,正正正正,20,13.33,76.67,375,正正正,15,10.00,86.67,390,正正,11,7.33,94.00,405,正,8,5.33,99.33,420,435,1,0.67,100.00,合计,150,100.00,362.6,359.7,285.9,300.2,333.6,334.0,288.8,338.5,341.9,344.6,337.5,298.3,364.2,367.1,338.1,316.9,332.7,324.0,282.6,369.8,398.7,338.7,308.9,392.1,368.7,352.6,378.2,346.1,278.6,318.3,323.2,322.6,382.1,322.6,309.6,352.0,372.5,399.8,335.6,341.1,371.0,355.9,362.7,368.1,332.4,405.6,328.8,358.8,405.9,362.7,316.3,338.7,402.6,379.4,329.6,354.6,331.4,349.6,419.5,324.6,329.8,357.8,312.0,313.6,338.7,328.6,291.3,329.7,361.8,392.4,414.9,319.7,327.6,395.8,358.9,289.4,366.2,387.4,298.4,408.7,389.8,362.5,354.9,352.7,316.6,348.9,348.7,401.6,334.6,308.9,367.0,345.6,401.6,357.1,304.6,338.5,388.2,355.8,329.4,321.1,320.4,313.5,339.8,409.4,387.4,378.5,392.0,352.7,376.2,388.4,344.6,308.6,347.0,428.7,369.1,311.4,376.3,349.4,289.2,366.8,371.0,387.5,413.6,348.7,392.7,401.0,313.6,366.8,387.2,319.7,329.4,357.5,348.5,346.8,406.6,357.6,338.7,341.6,349.8,289.4,366.2,357.5,298.4,336.8,387.5,342.3,366.7,387.6,332.7,329.4,150,名正常成年男子的尿酸浓度(),频数表的编制步骤,1,、求全距,:428.7-278.6=150.1(mmol/L),2,、按全距的大小决定组数,组段和组段。,习惯上分,8,15,组,,组距,i=R/10=150.1/10=15.01,将,i,取整,i=15,划分组段:,第一组段(,270,)包含最小值。,最后一个组段(,420,435,)包含最大值。,除最后一个组段外,其余各组段均不标出上限。,Min=282.6,Max=428.7,年龄组段 年龄组段 年龄组段,0,4 0,5 0,5,9 5,10 5,10,15 10,15 10,16,20 15,20 15,20,(间断),(重叠),(正确),请问下面哪组的分组方法是正确的,?,3,、,列表划记:统计各组段内的数据频数得出,“,频数,”,栏,该表称之为,频数表,。,150,名正常成年男子的尿酸浓度(),尿酸(),划记,频数,频率(,%,),累计频率,(%),270,2,1.33,1.33,285,正,9,6,.00,7.33,300,正正,11,7.33,14.66,315,正正正正,22,14.67,29.33,330,正正正正,24,16.00,45.33,345,正正正正正,27,18.00,63.33,360,正正正正,20,13.33,76.67,375,正正正,15,10.00,86.67,390,正正,11,7.33,94.00,405,正,8,5.33,99.33,420,435,1,0.67,100.00,合计,150,100.00,二、频数分布图(直方图),2.,频数表和频数图的用途,1.,揭示频数的分布特征。,2.,揭示频数的分布类型。,3.,便于发现可疑值。,4.,便于进一步计算统计指标和进行统计分析。,1,、集中趋势:频数向中央部分集中。,2,、离散趋势:从中央部分到两侧频数分布逐渐减少。,对称分布:集中位置居中,频数分布,正偏态(左偏态),偏态分布,负偏态(右偏态),频数分布的类型,正偏态 负偏态,(,麻疹年龄分布,),(,肺癌年龄分布,),集中位置偏向数值小的一侧,集中位置偏向数值大的一侧,频数表的分布特征,集中趋势,(central tendency):,变量值集中位置。,平均水平指标,离散趋势,(tendency of dispersion):,变量值围绕集中位置的分布情况。离“中心”位置越远,频数越小;且围绕“中心”左右对称。,变异水平指标,集中趋势的描述,统计上使用平均数(,average,)这一指标体是来描述一组变量值的集中位置或平均水平。,二、平均水平指标,常用的描述指标:,一、算术均数,(arithmetic mean),二、几何均数,(geometric mean)G,三、中位数,(median)M,、,Px,平均数,(,一,),算术均数,(arithmetic mean),均数的计算方法,(,1,)直接法(适用于观察单位较少时),1.191,(,mmol/L,),例,:,有,8,名正常成年女子的血清甘油三酯(,mmol/L,)的测定值分别为,1.34,,,0.96,,,1.11,,,1.52,,,1.12,,,0.91,,,1.33,,,1.24,,求其算术均数。,150,名正常成年男子的尿酸浓度(),尿酸(),组中值(),频数,270,277.5,2,555.0,285,292.5,9,2632.5,300,307.5,11,3382.5,315,322.5,22,70.95.0,330,337.5,24,8100.0,345,352.5,27,9517.5,360,367.5,20,7350.0,375,382.5,15,5737.5,390,397.5,11,4372.5,405,412.5,8,3300.0,420,435,427.5,1,427.5,合计,150,(),52470.0,(,2,)加权法(适用于大样本,频数表资料),=349.8,2.,均数的两个重要特征,(,1,)离均差(各观察值,X,与均数 之差)的总和为零。,(,2,)离均差平方和小于各观察值,X,与任何数,(),之差的平方和。,3.,均数的应用,(,1,)在合理分组的基础上,对同质的事物求均数才有意义,才能反映事物的平均水平。,(,2,)适用于,对称分布,,,尤其是正态分布,资料。,二、几何均数,(一)几何均数的计算,1.,直接法,例,9-3,有,8,份血清的抗体效价分别为,1:2,1:4,1:8,1:16,1:32,1:64,1:128,1:256,,求平均抗体效价。,平均抗体效价为,1:22.65,2.,加权法,例,某地34名儿童接种麻疹疫苗后,血清血凝抑制抗体滴度的测定结果见,下,表,求平均滴度。,某地,34,名儿童接种麻疹疫苗后血清血凝抑制抗体滴度的计算表,频数,抗体滴度,(,1,),(2),滴度倒数,X,(,3,),(,4,),(,5,),=,(,2,),(,4,),1:2.5,3,2.5,0.3979,1.1937,1:5.0,7,5.0,0.6990,4.8930,1:10.0,14,10.0,1.0000,14.0000,1:20.0,6,20.0,1.3010,7.8062,1:40.0,4,40.0,1.6021,6.4084,合计,34,-,-,34.3013,3.,几何均数的应用,1.,几何均数常用于,等比级资料或对数正态分布,资料。,2.,观察值中不能有,0,。,3.,观察值不能同时有正值或负值。,4.,同一组资料求得的几何均数小于均数。,三、中位数(,M,)与百分位数,1,、,M,:,是指将一组观察值从小到大排列,位次居中的观察值就是中位数。,小,大,2,、百分位数,把一组数据从小到大排列后,分成,100,等份,处于第,X,百分位置的数值。它将全部数据分为两部分,有,X%,的数据小于,P,X,,有,1-X%,的数据大于,P,X,。,如中位数即是第,50,百分位数,,小,大,(一)中位数的计算,1.,直接法,特点:仅仅利用了中间的,1,2,个数据,例 某医生观察,5,名小细胞未分化型肺癌患者,其生存期(月)分别为,4,,,18,,,21,,,23,,,41,,求中位数。,n=5,,为奇数,例:,10,名某传染病病人的潜伏期,(,天,),分别为,1,,,1,,,2,,,2,,,2,,,3,,,4,,,6,,,8,,,10,,求中位数。,n=10,,为偶数,2.,频数表法,(,1,)计算累计频数和累计频率,(,2,)找出中位数,(,百分位数,),所在组段,(,3,)将数据代入公式计算,M,、,Px,步 骤,308,名,6,岁以下儿童的尿铅值中位数及百分位数的计算表,P,25,=25+(25/54),(,30825,%,-27,),=48.15,(,mmol/L,),尿铅值,(,mmol/L,),(,1,),例数,f,(,2,),累计频数,f,(,3,),累计频率,(,%,)(4)=(3)/,n,0,27,27,8.77,25,54,81,26.30,50,95,176,57.14,75,55,231,75.00,100,39,270,87.66,125,21,291,94.48,150,12,303,98.38,175,5,308,100.00,合计,308,(,f,),求:,P25,、,P,50,、,P,95,(二)中位数和百分位数的应用,偏态分布资料,开口资料(数据无确切值,),分布不明的资料,描述集中趋势指标的选择,算数平均数(),几何平均数(),中位数(),A,、正态分布,B,、等比数列,C,、对称分布,D,、分布不明,E,、对数正态分布,F,、偏态分布,三、变异程度的统计描述,离散趋势指标,离散趋势指标,极差,(Range,),(,全距,),四分位数间距,Quartile range,方差,Variance,标准差,Standard Deviation,变异系数,Coefficient of Variation,盘编号,甲,乙,丙,1,440,480,490,2,460,490,495,3,500,500,500,4,540,510,505,5,560,520,510,合计,2500,2500,2500,均数,500,500,500,例:设甲、乙、丙三人,采某人的耳垂血,然后红细胞计数,每人数,5,个计数盘,得结果如下(万,/mm,3,),甲,乙,丙,1.,极差,(Range,),(,全距,),优点:简便,缺点:,1.,只利用了两个,极端值,2.,n,大,,R,也会大,3.,不稳定,120,40,20,2.,四分位数间距,四分位间距,:,Q,P,75,P,25,P,100,(max),P,75,P,50,(,中位数,),P,25,P,0,(min),P,x,3.,方 差,方差,:,样本观察值的离均差平方和的均值。表示一组数据的平均离散情况。,4.,标准差,标准差,(,standard deviation,)即方差的正平方根;其单位与原变量,X,的单位相同。,标准差的计算,盘编号,甲,乙,丙,甲,2,乙,2,丙,2,1,440,480,490,193600,230400,240100,2,460,490,495,211600,240100,245025,3,500,500,500,250000,250000,250000,4,540,510,505,291600,260100,255025,5,560,520,510,313600,270400,260100,合计,2500,2500,2500,1260400,1251000,1250250,标准差,50.99,15.81,7.91,组段,(,1,),频数,,f,(,3,),组中值,,X,(,4,),fX,(5)=(3)(4),fX,2,(5)=(3)(4),2,0.5,3,0.55,1.65,0.91,0.6,9,0.65,5.85,3.80,0.7,12,0.75,9.00,6.75,0.8,13,0.85,11.05,9.39,0.9,17,0.95,16.15,15.34,1.0,18,1.05,18.90,19.85,1.1,20,1.15,23.00,26.45,1.2,18,1.25,22.50,28.13,1.3,17,1.35,22.95,30.98,1.4,13,1.45,18.85,27.33,1.5,9,1.55,13.95,21.62,1.6,8,1.65,13.20,21.78,1.7,1.8,合计,3,1.75,5.25,9.19,160,182.30,221.52,方差,(221.52,182.30,2,/160)/(160-1),0.0869,标准差,0.29,5.,变异系数,(coefficient of variation,,,CV),适用条件,:观察指标单位不同,如身高、体重,同单位资料,但均数相差悬殊,均数,标准差,变异系数,青年男子 身高,170 cm,6 cm,3.5,体重,60 kg,7 kg,11.7,例,:,测得某地成年人舒张压均数为,77.5mmHg,标准差为,10.7mmHg,;收缩压均数为,122.9mmHg,标准差为,17.1mmHg,。试比较舒张压和收缩压的变异程度。,离散趋势指标小结,1,极差较粗,适合于任何分布,2,标准差,与均数的单位相同,最常用,适合于近似正态分布,3,变异系数主要用于单位不同或均数相差悬殊资料,4,集中趋势指标和离散趋势指标分别反映资料的不同特征,,常配套使用 如,正态分布,:均数、标准差;,偏态分布,:中位数、四分位间距,练 习 题,均数和标准差的关系是,:,A,、均数愈大,,S,愈小,B,、均数愈大,,S,愈大,C,、,S,愈大,均数对各变量值的代表性愈好,D,、,S,愈小,均数对各变量值的代表性愈好,E,、,S,愈小,均数与总体均数的距离愈大,如果每个个体均加上一个定值,K,,下面哪个说法是正确的,A,、均数和,S,都不变,B,、均数增大,K,,,S,不变,C,、均数不变,,S,增大,K,D,、均数和,S,都发生变化,尿铅值,(,mmol/L,),(,1,),例数,f,(,2,),累计频数,f,(,3,),累计频率,(,%,)(4)=(3)/,n,0,27,27,8.77,25,54,81,26.30,50,95,176,57.14,75,55,231,75.00,100,39,270,87.66,125,21,291,94.48,150,12,303,98.38,175,5,308,100.00,合计,308,(,f,),以下是,308,名,6,岁以下儿童的尿铅值求,P50,和,P90,问 题,如果你是一名医务工作者,发现最近有很多人患有痛风,经过询问后发现这些患者大部分在一家新建立的蓄电池厂工作。,你对此有什么想法?又如何证实你的想法?,
展开阅读全文