收藏 分销(赏)

chapter定量资料的统计描述.pptx

上传人:人****来 文档编号:4667095 上传时间:2024-10-09 格式:PPTX 页数:69 大小:489.51KB 下载积分:14 金币
下载 相关 举报
chapter定量资料的统计描述.pptx_第1页
第1页 / 共69页
chapter定量资料的统计描述.pptx_第2页
第2页 / 共69页


点击查看更多>>
资源描述
Qualitative dataanalysisQuantitative data analysis Statistical descriptionStatistical InferenceStatistical InferenceStatistical descriptionCollection of data Statistical analysisSorting dataDesign Design Collection of data Sorting dataStatistical analysisStatistical analysis Statistical descriptionStatistical descriptionStatistical InferenceStatistical InferenceParameter EstimationHypothesis TestStatistical description2 学学习目目标:1、熟悉、熟悉频数表的划数表的划记步步骤,频数表的用途。数表的用途。2、掌握、掌握 均数、几何均数、中位数的定均数、几何均数、中位数的定义、方差、方差、标准差、准差、变异系数的适用范异系数的适用范围。3、掌握均数、几何均数、中位数、掌握均数、几何均数、中位数、变异系数异系数的的计算方法。算方法。3Outlinen频数分布表、频数分布图n统计指标n描述集中趋势的指标n描述离散趋势的指标n正确应用n总结4n定量资料?n统计分析包括哪两个内容?回顾回顾 统计描述统计描述 统计推断统计推断 5第一第一节 频数分布表及其用途数分布表及其用途 定定量量资料料进行行描描述述时,如如果果样本本量量较大大,需需要要对原原始始资料料进行行整整理理,列列出出频数数分分布布表表,通通过频数数表表以以显示示资料的分布料的分布类型。型。n频数(数(frequency)在一批在一批样本中,相同情形出本中,相同情形出现的次数称的次数称该情形的情形的频数。数。n频数表(数表(frequency table)将所有将所有“互相排斥的情形互相排斥的情形”的的频数毫数毫无无遗漏地排列在一起。由漏地排列在一起。由频数与数与组段段组成。成。一、离散型定量一、离散型定量资料的料的频数分布数分布n如如1998年某山区年某山区9名孕名孕妇产前前检查次数次数资料:料:n0 0,3 3,2 2,0 0,1 1,5 5, ,3 3,2 2,4 4,1 1,0 0, ,5 5,1 1,3 3,3 3,4 4, 。n这是什么类型的资料?表2-1 1998年某地9名孕妇产前检查次数分布检查次数(1)频 数(2)频率(%)(3)0 4 4.21 .321111.531313.5422.152324.0 51212.5合计9 100.0根据表2-1频数的分布可绘出频数分布图。图中横坐标表示产前检查次数,纵坐标表示各检查次数的各检查次数的孕妇例数占总孕妇数的频率孕妇例数占总孕妇数的频率(比例)。从直条高度和分布情况看出,产前检查次数分布呈负偏态分布。10二、二、连续型定量型定量资料的料的频数分布数分布例2:乱七八糟的原始数据n某地120名18岁35岁健康男性居民血清铁含量,数据如下:.428.523.0221.121.3121.49.922.314.9420.1821.223.020.388.401.3229.419.921.923.901.4519.0820.5224.1423.18.323.0424.2224.1321.5311.0918.8918.223.291.15.3818.114.21.4022.551.551.101.9820.1321.0014.519.8919.821.4814.8918.319.501.0818.122.0211.3413.8110.2515.9415.8318.5424.5219.22.131.9918.8918.420.81.5113.1211.51.4021.31.1413.12.5020.4020.3019.3823.1112.23.0224.325.119.5314.14.324.512.31.2519.091.91.1919.3219.5919.1215.3121.519.415.5110.82.8121.51.3220.522.1113.11.5519.212.518.4819.8323.1219.2219.221.22.9011.424.14.181.5212频数分布表和频数分布图n原因:由于个体变异的存在,医学研究中某指标在各个体上的观察结果不是恒定不变的,但也不是杂乱无章的,而是有一定规律的,呈一定的分布(distribution)。n解决:频数分布表的基本思想:将原始数据按照一定的标准划分为若干各组,合计各组的频数,得到频数分布表;再将频数表绘制成频数分布图。13频数表的划数表的划记步步骤:1 1、找出最大、找出最大值和最小和最小值,2 2、求全距,又称极差、求全距,又称极差R(Range)R(Range)R=最大值-最小值 R=29.4-.42=22.22 3 3、定、定组段数与段数与组距距:(1)确定组数K:根据样本例数 n大小而定,一般分10-15组之间,如样本较小,可少于10组;如样本较大时,可大于10组,以能反映出分布以能反映出分布规律律为原原则。14(2)定组距 i:组距即组与组间的距离,一般等距分组。i=R/K(极差/组数)=22.22/10=2.222 最终原则是取整、取偶数,所以本例 i=2(3)定组段的上下限并划记:每个组段的起点(最小值)称为该组的下限(low limit),终点(最大值)称为该组的上限(upper limit)。注意第一第一组段把最小段把最小值包括包括进去,最后一去,最后一组把把最大最大值包括包括进去。去。4、列表:统计各组段的频数:见表2-2 某地120名18岁35岁健康男性居民血清铁含量.428.523.0221.121.3121.49.922.314.9420.1821.223.020.388.401.3229.419.921.923.901.4519.0820.5224.1423.18.323.0424.2224.1321.5311.0918.8918.223.291.15.3818.114.21.4022.551.551.101.9820.1321.0014.519.8919.821.4814.8918.319.501.0818.122.0211.3413.8110.2515.9415.8318.5424.5219.22.131.9918.8918.420.81.5113.1211.51.4021.31.1413.12.5020.4020.3019.3823.1112.23.0224.325.119.5314.14.324.512.31.2519.091.91.1919.3219.5919.1215.3121.519.415.5110.82.8121.51.3220.522.1113.11.5519.212.518.4819.8323.1219.2219.221.22.9011.424.14.181.52表表2-2 120名正常成年男子血清名正常成年男子血清铁含量含量频数表数表组组 段段(1)频频 数数(2)频率频率()(3)累计频数累计频数(4)累计频率累计频率()(5)10.8310.83832.5043.33105.00108.33128.1815.00141210.003025.001201.5041.18222.504.1201815.00959.1221210.001089.1248.11595.83243.3311999.1 283010.83120100.00合合 计计120100.00频数表制表步骤1:找出最小值和最大值.428.523.0221.121.3121.49.922.314.9420.1821.223.020.388.401.3229.419.921.923.901.4519.0820.5224.1423.18.323.0424.2224.1321.5311.0918.8918.223.291.15.3818.114.21.4022.551.551.101.9820.1321.0014.519.8919.821.4814.8918.319.501.0818.122.0211.3413.8110.2515.9415.8318.5424.5219.22.131.9918.8918.420.81.5113.1211.51.4021.31.1413.12.5020.4020.3019.3823.1112.23.0224.325.119.5314.14.324.512.31.2519.091.91.1919.3219.5919.1215.3121.519.415.5110.82.8121.51.3220.522.1113.11.5519.212.518.4819.8323.1219.2219.221.22.9011.424.14.181.5218nR=最大值-最小值 =29.4-.42 =22.22制表步骤2:计算全距(range,R)即极差19制表步骤3:确定组段数和组距n组段数一般取1015,本例取12组段n组距=R/组段数 =22.22/12 =1.852制表步骤4:列表组组 段段划记划记频频 数数/18/310/,/12/,/814/,/,/121/,/,/,/,/2018/,/,/,/,/,/220/,/,/,/1822/,/,/1224/,/82/4 2830/1合合 计计120最小值最小值最大值最大值制表步骤4:列表组组 段段(1)频频 数数(2)频率频率()(3)累计频数累计频数(4)累计频率累计频率()(5)频率密度频率密度()(3)组距组距10.8310.830.42832.5043.331.25105.00108.332.50128.1815.003.34141210.003025.005.001201.5041.8.3418222.504.111.25201815.00959.1.50221210.001089.15.00248.11595.833.34243.3311999.11. 283010.83120100.000.42合合 计计120100.0022图2-2 120例健康成年男子血清例健康成年男子血清铁含量分布含量分布(频率密度=频率/组距)23n对称分布n偏态分布:即分布不对称者。正偏态(峰)分布:分布的长尾在峰的右侧,又称右偏分布。负偏态(峰)分布:分布的长尾在峰的左侧,又称左偏分布。三、三、频数分布表的用途数分布表的用途1、揭示资料的分布类型24图图2-3 某地居民某地居民238人发汞含量分布人发汞含量分布(频率密度频率密度=频率频率/组距组距)25n集中趋势(Central Tendency)n离散趋势(Tendency of Dispersion)2、揭示频数分布的两个分布特征:如成年男子血清铁分布,大多集中在18组段,偏离18组段的越来越少。23、便于、便于发现特大或特小的可疑特大或特小的可疑值。以确定取舍。以确定取舍。4、便于、便于进一步一步选择方法方法计算算统计指指标。2第二节 描述集中位置的指标平均数(Average)算术均数(Mean)几何均数(Geometric Mean)中位数(Median)百分位数(Percentile)28描述集中位置的指标1:算术均数算术均数(arithmetic mean,mean,)均数适用于均数适用于:对称分布的资料,尤其是正态分布资料:对称分布的资料,尤其是正态分布资料29例2-3 测得8只正常大鼠血清总酸性磷酸酶含量(U/L)为4.20,.43,2.08,3.45,2.2,4.04,5.42,3.38。求其算术均数。=(4.20+.43+2.08+3.45+2.2+4.04+5.42+3.38)/8=3.905(U/L)某地120名18岁35岁健康男性居民血清铁含量.428.523.0221.121.3121.49.922.314.9420.1821.223.020.388.401.3229.419.921.923.901.4519.0820.5224.1423.18.323.0424.2224.1321.5311.0918.8918.223.291.15.3818.114.21.4022.551.551.101.9820.1321.0014.519.8919.821.4814.8918.319.501.0818.122.0211.3413.8110.2515.9415.8318.5424.5219.22.131.9918.8918.420.81.5113.1211.51.4021.31.1413.12.5020.4020.3019.3823.1112.23.0224.325.119.5314.14.324.512.31.2519.091.91.1919.3219.5919.1215.3121.519.415.5110.82.8121.51.3220.522.1113.11.5519.212.518.4819.8323.1219.2219.221.22.9011.424.14.181.52加权法计算均数组组 段段(1)组中值组中值(x0)(2)f(3)f x0(4)=(2)*(3)1893210111213810414151218011203401819251320211838222312224258200224108 283029129合合 计计120222832n加权均数(weighted mean)f:组段的频数组段的频数 :组段的组中值,即(组段上限:组段的组中值,即(组段上限+组段下限)组段下限)/2加权法计算均数组组 段段(1)组中值组中值(x0)(2)f(3)f x0(4)=(2)*(3)1893210111213810414151218011203401819251320211838222312224258200224108 283029129合合 计计120222834公式比较:原始资料原始资料频数表资料频数表资料加权法加权法描述集中趋势的指标2:几何均数几何均数(geometric mean,G)几何均数适用于几何均数适用于:观察值变化范围跨越多个数量:观察值变化范围跨越多个数量级的资料,尤其对数正态分布资料。级的资料,尤其对数正态分布资料。3名慢性迁延性肝炎患者的HBsAg滴度资料 n1:1,1:32,1:4,1:128,1:25,1:5123抗体滴度频数(f)1:121:321:4111:128131:25121:512合计52表2-4 52例慢性肝炎患者的HBsAg滴度资料 38加权法计算几何均数表表2-4 52例慢性肝炎患者的例慢性肝炎患者的HBsAg滴度资料滴度资料抗体滴度抗体滴度频数频数(f)滴度倒数滴度倒数(X)lgXf(lgX)1:1211.204122.408241:32321.5051510.53051:41141.801819.8981:128131282.10212.39331:2512252.4082428.898881:5125122.09218.9489合计合计52108.0940公式比较:原始资料原始资料频数表资料频数表资料加权法加权法41描述集中趋势的指标3:中位数(median,M)是指一是指一组观察察值从小到大从小到大顺序排列后居序排列后居于中于中间位置的数。位置的数。即即总数中有一半的数低于它,一半的数数中有一半的数低于它,一半的数高于它。高于它。42M的的计算方法:算方法:小小样本本计算法:算法:当当n为奇数奇数时 M=x(中中间)当当n为偶数偶数时 M=(中(中间两位)两位)/2 注:按升序排列后的注:按升序排列后的如如 今有今有5名工人接触某有害物名工人接触某有害物质后,引起后,引起中毒的潜伏期分中毒的潜伏期分别是:是:1天,天,3天,天,5天,天,4天,天,8天。天。该5位工人的平均潜伏期是多位工人的平均潜伏期是多少天?少天?43大大样本本频数表数表资料,可用百分位数法料,可用百分位数法计算:算:百分位数(百分位数(percentile,Px):它表示一它表示一组观察察值按升序排列,并按升序排列,并等分等分为100等份,位居第等份,位居第x%位置位置的数。其中,中位数的数。其中,中位数M=P5044中位数示例n9例正常人的发汞值:1.1,1.8 3.5 4.2 4.8 5. 5.9 .1 10.5 M=4.8n10例正常人的发汞值:1.1,1.8 3.5 4.2 4.8 5. 5.9 .1 10.5 1.3 M=(4.8+5.)/2=5.2 45中位数示例n对于某项风险较高的新手术术后的生存时间进行跟踪,共调查了人,人死亡之前分别生存了5天、天、10天、1天、25天、29天,还有一人术后30天随访时仍存活。n本资料属于“开口”资料。n本例数据已经按从小到大的升序排列,n=,为奇数,其中位数为1天。4中位数中位数的适用条件n中位数适用于中位数适用于:理:理论上适用于任何分布的定量上适用于任何分布的定量资料料资料,料,实际上适用于:上适用于:偏偏态分布分布资料;料;开口开口资料;分布料;分布类型不清的型不清的资料。料。n百分位数(percentile,PX)将N个观察值从小到大依次排列,再分成100等份,对应于X位的数值即为第X百分位数。中位数是百分位的特殊形式。同样的例子还有四分位数、十分位数等。X%PX (100-X)%n中位数是百分位的特殊形式,P50分位数就是中位数n四分位数:上四分位数(P5),下四分位数(P25)。描述集中趋势的指标4:百分位数n百分位数的计算公式:描述集中趋势的指标4:百分位数P PX X:为百分位数:为百分位数 L L:为欲求的百分位数所在组段的下限:为欲求的百分位数所在组段的下限i i :为该组段的组距:为该组段的组距 f fx x:为该组段的频数:为该组段的频数n n :为总频数:为总频数f fL L :为该组段之前的累计频数:为该组段之前的累计频数组组 段段(1)频频 数数(2)频率频率()(3)累计频数累计频数(4)累计频率累计频率()(5)10.8310.83832.5043.33105.00108.33128.1815.00141210.003025.001201.5041.18222.504.1201815.00959.1221210.001089.1248.11595.83243.3311999.1 283010.83120100.00合合 计计120100.0050只用平均数描述资料的弊病n甲组 2 29 30 31 34 均数30kgn乙组 24 2 30 33 3 均数30kgn丙组 2 28 30 32 34 均数30kg丙乙甲三组儿童体重的离散程度51第三第三节、离散程度的描述、离散程度的描述描述一描述一组数据参差不数据参差不齐的程度的程度 52描述离散趋势的指标变异度极差(Range)四分位数间距(interquartile range)方差(Variance)标准差(Standard Deviation)变异系数(coefficient of variation)53描述离散趋势的指标1:极差全距(range),极差 R=maxmin极差反映反映一组数据的变化范围极差适用于:任何分布资料54计算极差:n甲组 2 29 30 31 34n乙组 24 2 30 33 3n丙组 2 28 30 32 3455极差优点和缺点优点:简便优点:简便缺点:缺点:1.1.只利用了两个极端值只利用了两个极端值 2.2.n n大,大,R R也会大也会大 3.3.不稳定不稳定5描述离散趋势的指标2:四分位数间距nP5、P 25分别表示上、下四分位数n四分位数间距(quartile range)Q P5 P 25n四分位数间距反映数据的变异程度比极差稳定。n四分位间距适用于:任何分布资料。组组 段段(1)频频 数数(2)频率频率()(3)累计频数累计频数(4)累计频率累计频率()(5)10.8310.83832.5043.33105.00108.33128.1815.00141210.003025.001201.5041.18222.504.1201815.00959.1221210.001089.1248.11595.83243.3311999.1 283010.83120100.00合合 计计120100.0059描述离散趋势的指标3:方差离均差离均差离均差平方和离均差平方和离均差平方和的均数离均差平方和的均数方方 差差方差、标准差适用于:对称分布的资料,尤其是正态分布资料。0描述离散趋势的指标3:方差方差(variance)也也称称均均方方差差,观察察值的的离离均均差差平平方方和和的的算算术均均数数。表表示示一一组数数据据的的平平均均离离散程度。散程度。总体方差总体方差只能取正值;只能取正值;方差越大,意味着个体间变异越大;反之亦然。方差越大,意味着个体间变异越大;反之亦然。1描述离散趋势的指标4:标准差标准差(standard deviation),方差的平方根方差的平方根 只能取正值;只能取正值;标准差越大,意味着个体间变异越大;反之亦然。标准差越大,意味着个体间变异越大;反之亦然。总体标准差总体标准差样本标准差样本标准差2描述离散趋势的指标5:变异系数变异系数(coefficient of variation,CV)n排除了平均水平的影响,并取消了单位。因此变异系数常用于:n比较量纲不同的变量间变异度n比较均数相差悬殊的变量间变异度。3量纲不同变量间变异度的比较均数均数 标准差标准差变异系数变异系数青年男子青年男子 身高身高10 cm cm3.5 体重体重0 kg kg11.4均数差别较大的变量间变异度比较年龄组年龄组均数均数 标准差标准差变异系数变异系数33.5岁岁9.13.13.2 3035岁岁10.25.00.3不同年龄组男子身高(不同年龄组男子身高(cm)的变异度)的变异度5正确应用(1)n算数均数:适用于对称分布资料;n几何均数:适合于对数正态分布资料;n中位数和百分位数:适用于任何分布的资料;n中位数和百分位数在样本含量较少时不稳定,越靠两端越不稳定;因此,当资料适合计算均数或几何均数时,不宜用中位数表示其平均水平。正确应用(2)n极差:适用于任何分布资料n四分位间距:适用于任何分布资料n标准差:适用于对称分布资料n变异系数:常用于量纲不同的变量间或均数相差较大的变量间变异度的比较平均数与变异度n平均数所表示的集中性与变异度所表示的离散性,从两个不同的角度阐明计量资料的特征!n均数标准差n中位数四分位数间距 n变异度小,则均数代表性好!n变异度大,数据分散,则均数代表性差!8总结:定量资料的统计描述n图表描述:n统计量描述集中趋势指标:均数、几何均数、中位数离散趋势指标:标准差、四分位数间距、变异系数、极差9
展开阅读全文

开通  VIP会员、SVIP会员  优惠大
下载10份以上建议开通VIP会员
下载20份以上建议开通SVIP会员


开通VIP      成为共赢上传

当前位置:首页 > 包罗万象 > 大杂烩

移动网页_全站_页脚广告1

关于我们      便捷服务       自信AI       AI导航        抽奖活动

©2010-2026 宁波自信网络信息技术有限公司  版权所有

客服电话:0574-28810668  投诉电话:18658249818

gongan.png浙公网安备33021202000488号   

icp.png浙ICP备2021020529号-1  |  浙B2-20240490  

关注我们 :微信公众号    抖音    微博    LOFTER 

客服