‍1 期末复习概要期末复习概"/>
收藏 分销(赏)

统计学期末复习.pdf

上传人:二*** 文档编号:4522313 上传时间:2024-09-26 格式:PDF 页数:54 大小:1,001KB
下载 相关 举报
统计学期末复习.pdf_第1页
第1页 / 共54页
本文档共54页,全文阅读请下载到手机保存,查看更方便
资源描述

1、1 期末复习概要期末复习概要 2 统计学统计学 统计描述统计描述 统计推断统计推断 参数估计参数估计 假设检验假设检验 2 3 第一部分第一部分 统计描述统计描述 4 统计描述-基本概念 总体总体:(population)根据研究目的所确定的根据研究目的所确定的同质同质观察单观察单位的全体位的全体 样本:样本:(sample)从总体中随机抽取的部分观察单位从总体中随机抽取的部分观察单位 变量变量:(variable)每个观察单位的某项特征每个观察单位的某项特征 资料资料:(data)由变量值构成由变量值构成:计量资料计量资料,计数资料和等级资计数资料和等级资料料 误差:误差:(error)指真

2、值与观察值之差指真值与观察值之差 概率:概率:(probability)度量随机事件发生可能性大小的度量随机事件发生可能性大小的 一个数值一个数值,用大写的,用大写的P表示;取值表示;取值0,1。频率:频率:(frequency)事件实际发生次数与可能发生次数事件实际发生次数与可能发生次数的比率,设在相同条件下,独立重复进行的比率,设在相同条件下,独立重复进行n次试验,事次试验,事件件A出现出现f 次,则事件次,则事件A出现的频率为出现的频率为f/n 4 5 资料类型 1.1.计量资料:计量资料:又称又称定量资料定量资料,用仪器、工具等定量方,用仪器、工具等定量方 法对观察单位测量法对观察单位

3、测量(measure)某指标值所得到的资料。某指标值所得到的资料。特点:一般特点:一般有计量单位有计量单位-连续型连续型 2.计数资料计数资料又称又称定性资料定性资料(Qualitative data),分二),分二分类和多分类,按观察单位品质标志分组,再清点分类和多分类,按观察单位品质标志分组,再清点各组的例数所得的资料。各组的例数所得的资料。特点:一般特点:一般无固有计量单位无固有计量单位-离散型离散型 3.等级资料等级资料又称又称半定量半定性资料半定量半定性资料,根据观察单位某指,根据观察单位某指 标量的大小,深浅或严重程度分组,得到的各等级组标量的大小,深浅或严重程度分组,得到的各等级

4、组 观察单位数。观察单位数。特点:特点:有大小顺序有大小顺序,故又称,故又称有序分类资料有序分类资料-有序型有序型 5 6 误差的分类 非随机误差:非随机误差:非系统误差非系统误差:由于偶然的失误造成的误差,这种误差亦称过失误差 系统误差系统误差:系统误差的值是恒定不变的,或者是 按一定的规律变化 随机误差随机误差:是无规律性、不恒定的随机性变化的误差,亦称偶然误差 抽样误差就是其中的一种随机误差不可避免可为正或负,无一定规律性 有些随机误差可能被认识而加以控制 6 7 频率与概率的关系 7 样本频率总是围绕概率上下波动;样本频率总是围绕概率上下波动;样本含量样本含量n越大越大,波动幅度越小波

5、动幅度越小,频率越接近概率;频率越接近概率;随着实验次数增至足够大随着实验次数增至足够大,频率逐渐稳定于某一常数附频率逐渐稳定于某一常数附近近,则该常数为概率则该常数为概率 8 频数表的编制步骤 8 1.求求极差极差(range):即最大值与最小值之差,又称为全):即最大值与最小值之差,又称为全距。距。2.决定决定组数、组段组数、组段和和组距组距:组距组距:相邻两组之间的距离相邻两组之间的距离.根据研究目的和样本含量根据研究目的和样本含量n确定。组距确定。组距=极差极差/组数,通常组数,通常分分10-15个组,为方便计,组距参考极差的十分之一个组,为方便计,组距参考极差的十分之一,再略再略加调

6、整。加调整。3.列出组段:第一组段的下限略小于最小值,列出组段:第一组段的下限略小于最小值,最后一个组段上限必须包含最大值,其它组段上限最后一个组段上限必须包含最大值,其它组段上限 忽略。忽略。4.4.划记计数划记计数:用划记法将所有数据归纳到各组段,得到:用划记法将所有数据归纳到各组段,得到各组段的频数各组段的频数 9 集中趋势的描述 9 平均数(average)反映了资料的集中趋势(central tendency)。常用的有:1.算术均数(arithmetic mean),简称均数(mean):资料呈正态或近似正态。可用于反映一组成对称分布的变量值在数量上的平均水平 2.几何均数(geo

7、metric mean)可用于反映一组经对数转换后呈对称分布的变量值在数量上的平均水平 3.中位数(median)是将一批数据从小至大排列后位次居中的数据值,符号为Md,反映一批观察值在位次上的平均水平。4.众数(mode)出现次数(或频数)最多的观察值;10 10 图2-1 160名正常成年女子的血清甘油三酯的频数分布图05101520250.50 0.700.90 1.10 1.301.50 1.70 1.90血清甘油三酯(mmol/L)频数正态分布时:均数中位数众数均数中位数众数 均数,中位数和众数 11 离散趋势的描述 11 反映数据的离散度(Dispersion)。即个体观察值的变异

8、程度。常用的指标有:1.极差(Range)2.百分位数与四分位数间距:QRP75 P25 3.方差 Variance:反映一组数据的平均离散水平 4.标准差Standard Deviation:即方差的正平方根;其 单位与原变量X的单位相同。5.变异系数 Coefficient of Variation 适用条件:适用条件:观察指标单位不同,如身高、体重 同单位资料,但均数相差悬殊%100XSCV12 变异指标的总结 12 1.极差较粗,适合于任何分布 2.标准差与均数的单位相同,最常用,适合于近似正态分布 3.变异系数主要用于单位不同或均数相差悬殊资料 4.平均指标和变异指标分别反映资料的不

9、同特征,5.常配套使用 正态分布正态分布:均数、标准差;偏态分布偏态分布:中位数、四分位半间距 13 计数资料常用的统计指标 13 比:说明A是B的若干倍或几分之几,通常用倍数或分数表示。构成比:说明某一事物内部,各组成部分所占的比重比重 率:说明某现象或事物发生的频率频率或强度强度,又称为强度相对数。率=(实际发生数/可能发生总数)比例基数 100某一组成部分的观察单位数构成比同一事物各组成部分的观察单位总数14 合计为合计为100100 容易容易 某部分的比重某部分的比重 某组成部分某组成部分 占总体的比重占总体的比重 构成比构成比 不一定不一定 特点特点 较难较难 资料获得资料获得 随机

10、事件发生频率随机事件发生频率 强调点强调点 发生的频率发生的频率 或强度或强度 概念概念 率率 构成比与率的区别 15 应用相对数应注意的问题 15 进行率的对比分析时,应注意资料可比性可比性。如:比较疗效时,比较组间应病情轻重相同,若有性别影响,应按性别分组后再作比较。计算相对数的分母不宜过小母不宜过小,小则直接叙述。如:某医师用组织埋藏法治疗两例视网膜炎患者,一例有效,即报道有效率为50,显然该有效率是不可靠的。16 统计图的结构和类型 16 1.标 题 2.图 域 3.标 目 4.尺 度 5.图 例 条图-比较多个相互独立的统计指标 圆图-表达事物内部的百分构成比大小 百分比条图-更适用

11、于多组百分比的比较 线图-连续性资料 半对数线图-表示事物的发展速度 散点图-用点的密集程度和趋势表示两种现象间的相关关系 直方图-用矩形面积表示连续变量的频数(频率)分布 17 正态分布与标准正态分布 两个参数:两个参数:m m0,0,s1s1,记为记为 N(0,1)22(,)(0,1);1()exp,22uNXNuuf uXm sms 经 变换:一般正态分布转化为标准正态分布其中18 图2-2 59名链球菌咽喉炎患者的潜伏期(h)0246810121416181224364860728496108 120潜伏期(h)病例数图2-3 101名正常人的血清肌红蛋白含量0510152025051

12、01520253035404550肌红蛋白含量(ug/mL)人数正偏态分布:正偏态分布:长尾向长尾向右右延伸延伸 负偏态分布:负偏态分布:长尾向长尾向左左延伸延伸 18 均数,中位数和众数 19 标准正态分布标准正态分布 正态分布正态分布 面积或概率面积或概率-11 68.27%-1.961.96 1.96 95.00%-2.582.58 2.58 99.00%N(0,1)N(m,sm,s2 2)曲线下面积的分布规律 20 第二部分第二部分 参数估计参数估计 21 总体总体 样本样本 随机抽样随机抽样 统计量统计量 参参 数数 统计推断统计推断 ms如:样本均数如:样本均数 样本标准差样本标准

13、差 S 样本率样本率 P 如:总体均数如:总体均数 总体标准差总体标准差 总体率总体率 X21 参数估计-点估计 22 22 参数估计-区间估计 内容内容 标准差标准差 标准误标准误 性质性质 表示个体变异大小表示个体变异大小 统计量的标准差,统计量的标准差,表表示抽样误差大小示抽样误差大小 控制控制 方法方法 个体变异或自然变异,个体变异或自然变异,不可通过统计方法来控制。不可通过统计方法来控制。增大样本含量可减少增大样本含量可减少 算式算式 22/1XXnSn/XSSn 用途用途 求参考值范围求参考值范围 求可信区间求可信区间 23 可信区间可信区间 参考值范围参考值范围 含含 义义 当当

14、=0.05时,时,CI以以95%的可能性包含总体均数。的可能性包含总体均数。“正常人”的解剖、生理、正常人”的解剖、生理、生化某项指标个体值的波动范生化某项指标个体值的波动范围。围。计计 算算 公公 式式 s s未知未知:正态分布:正态分布:s s已知或已知或s s未知但为大样本未知但为大样本:偏态分布:偏态分布:PXP100 X 用用 途途 总体均数的区间估计总体均数的区间估计 绝大多数绝大多数(如如95%)95%)观察对象某观察对象某项指标的分布范围项指标的分布范围 XStx,2/XXSuxux2/2/s或Sux2/23 24 第三部分第三部分 统计推断统计推断 25 1 1、反证法的思想

15、、反证法的思想:事先对总体特征做出某种假设,通过事先对总体特征做出某种假设,通过分析样本信息,判断该样本信息是否支持这种假设,分析样本信息,判断该样本信息是否支持这种假设,从而作出拒绝或不拒绝这种假设的取舍抉择从而作出拒绝或不拒绝这种假设的取舍抉择。2 2、根据、根据 “小概率事件在一次试验中一般不会发生小概率事件在一次试验中一般不会发生”的原理的原理,用概率的思想决定是否拒绝原假设。用概率的思想决定是否拒绝原假设。25 假设检验的基本思想 26 1 1、建立假设、建立假设,确定检验水准:确定检验水准:H H0 0:1 12 2 (检验假设)(检验假设)H H1 1:1 12 2 (备择假设)

16、(备择假设)0.05 0.05(双侧双侧)2 2、选定方法,计算统计量:、选定方法,计算统计量:根据统计推断目的、设计、资料组数、样本含量等根据统计推断目的、设计、资料组数、样本含量等选择方法。如两组选择方法。如两组大样本比较大样本比较u检验、检验、小样本比较用小样本比较用t检验、检验、方差齐性检验用方差齐性检验用F检验。检验。3 3、确定、确定P P值,作出统计决策:值,作出统计决策:P P 拒绝拒绝H H0 0,差别有统计学意义;,差别有统计学意义;P P 不拒绝不拒绝H H0 0,差别无统计学意义。,差别无统计学意义。26 假设检验的基本步骤 27 样本率样本率(p)与总体率与总体率()

17、比较的比较的u检验检验 27 u 检验 适用条件:适用条件:大样本大样本计量资料的总体均数的假设检验计量资料的总体均数的假设检验 20/Xunmss已知方差或方差的估计值:检验检验目的:推断样本所来自总体的总体率目的:推断样本所来自总体的总体率()()与已知与已知 总体的总体率总体的总体率()()是否相同。是否相同。pN N(,(,)统计量统计量u值值 0002psnppup/)1(0000s28 28 t 检验 单样本均数的单样本均数的t检验检验 配对样本均数的配对样本均数的t检验检验 两独立两独立样本均数的样本均数的t检验检验(方差齐)方差齐)nSXt/0m1/)(1,/22nnddSnn

18、SdSdtddddm12121212212222112212,211()(1)(1)2XXccXXXXtnnSSnnnSnSSnn计算统计量:29 29 F 检验-方差齐性检验 建立假设建立假设 H0:s s12s s22 (两总体方差相等两总体方差相等)H1:s s12s s22 (两总体方差不等两总体方差不等)检验统计量检验统计量 11,)()(22112221nnSSF,较小较大30 30 F 检验-方差分析)df(df F ,组内组间组内组间MSMSF Hmm01k:31 31 F 检验-直线回归 2)-n,1(F残差回归MSMSF 0:0:10HH32 32 卡方 检验-四格表 四格

19、表 H H0 0:1 1 2 2 H H1 1:1 1 2 2 0.050.05。22OEE处理组 阳性事件 发生数 阳性事件 未发生数 合计 甲 a b a+b 乙 c d c+d 合计 a+c b+d n 33 33 卡方 检验-两个相关样本率 两个相关样本率的卡方检验 02222:()140(1)1HBCbcbcbcbcbc(两总体对子数相等),时,连续性校正 ,甲处理甲处理 乙处理乙处理+-+a b-c d 34 34 秩和 检验 两样本秩和检验:用各组秩和代替原始数据进行假设检验 121212min()nnTRRnn较小例数组的秩和,配对秩和检验:用各组秩和代替原始数据进行假设检验

20、差数为0的数据忽略不计;余下的n个差数按绝对值由小到大排秩号,排好后秩号要保持原差数的符号;差数绝对值相等时,求平均秩号表示;求秩和:即将正负秩号分别相加 检验统计量:R(较小的一个秩和)35 半定量资料即等级资料半定量资料即等级资料 偏态分布偏态分布 资料分布类型不明确资料分布类型不明确 个别数据偏离过大或数据某一端的值不确定个别数据偏离过大或数据某一端的值不确定 各组离散程度相差悬殊各组离散程度相差悬殊 35 秩和检验的适用的资料特点 36 假设检验结论假设检验结论 真实结果真实结果 拒绝拒绝H0 不拒绝不拒绝H0 H0成立成立 型错误型错误(a)推断正确推断正确(1a)H0不成立不成立

21、推断正确推断正确(1b)型错误型错误(b)36 两类错误(1)即可信度(confidence level):重复抽样时,可信区间包含总体参数的概率。(1)即把握度(power of a test):两总体确有差别时,按水准检验出有差别的能力,又称检验效能 37 优点:不受总体分布条件的限制,适用范围广,某些不便优点:不受总体分布条件的限制,适用范围广,某些不便准确测定,只能以准确测定,只能以严重程度,好坏优劣,次第先后严重程度,好坏优劣,次第先后等作记等作记录的资料也可应用。录的资料也可应用。缺点:适用于参数检验的资料若用非参数检验会造成信息缺点:适用于参数检验的资料若用非参数检验会造成信息的

22、丢失,导致的丢失,导致检验效能下降检验效能下降。即当。即当H0不真时,非参数检验不真时,非参数检验可能不如参数检验能较灵敏地拒绝可能不如参数检验能较灵敏地拒绝H0,犯第二类错误的,犯第二类错误的概率比参数检验大。概率比参数检验大。37 非参数分析方法 38 第四部分第四部分 直线回归与相关直线回归与相关 39 01000.05HH:(无直线关系):(有直线关系)2.2.计算统计量计算统计量 表表2 回归系数方差分析表回归系数方差分析表 1.1.提出检验假设,确定显著性水平提出检验假设,确定显著性水平 SS df MS F P Regression 173.7 1 173.70 88.6 0.0

23、5 B P0.05 C P0.01 D P=0.05 E 不能确定 53 编号 氟含量 患病率 1 0.47 22.37 2 0.64 23.31 3 1 25.32 4 4.47 22.29 5 1.6 28.57 6 2.86 35 7 3.21 46.07 8 4.71 46.08 二、简算题(每题2分,合计10分。)有数据如表所示,预以氟含量来预 测患病率 4 统计学结论为 A 有统计学意义 B 差异明显 C 无统计学意义 D 差异不明显 E 不能确定 54 编号 氟含量 患病率 1 0.47 22.37 2 0.64 23.31 3 1 25.32 4 4.47 22.29 5 1.6 28.57 6 2.86 35 7 3.21 46.07 8 4.71 46.08 二、简算题(每题2分,合计10分。)有数据如表所示,预以氟含量来预 测患病率 5 专业结论为 A 可以用氟含量来预测患病率 B 不可以用氟含量来预测患病率 C 患病率高低与氟含量有关 D 患病率高低与氟含量无关 E 不能确定

展开阅读全文

开通  VIP会员、SVIP会员  优惠大
下载10份以上建议开通VIP会员
下载20份以上建议开通SVIP会员


开通VIP      成为共赢上传
相似文档                                   自信AI助手自信AI助手
搜索标签

当前位置:首页 > 教育专区 > 其他

移动网页_全站_页脚广告1

关于我们      便捷服务       自信AI       AI导航        抽奖活动

©2010-2025 宁波自信网络信息技术有限公司  版权所有

客服电话:4008-655-100  投诉/维权电话:4009-655-100

gongan.png浙公网安备33021202000488号   

icp.png浙ICP备2021020529号-1  |  浙B2-20240490  

关注我们 :gzh.png    weibo.png    LOFTER.png 

客服