1、单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,数据分析,-,何帆,*,第二讲 样本描述性统计与假设检验,何 帆,数据分析,-,何帆,主要内容,基本数学模型,频数分析过程,数据描述过程,数据探察过程,列联表分析过程,数据分析,-,何帆,基本数学模型,-,集中趋势统计量,算术平均数,样本数据的总和除以样本个数,是样本数据集中趋势中最常用的统计量,公式,在不分组的情况下,f,都为,1,数据分析,-,何帆,基本数学模型,-,集中趋势统计量,中位数(,Median,),先将样本按升序或降序排列,样本数为奇,中间的数,样本为偶,取中间两个的平均,例如:下列两组样本的中
2、位数为,_?,11 2 4 9 5 23 20,12 54 22 36,数据分析,-,何帆,基本数学模型,-,集中趋势统计量,众数(,Mode,),样本数据出现频数最多的那个数,不受极值影响,可能有多个,例如,下面一组样本的众数为,_?,1 2 3 2 1 9 4 6 3 2 1 8,数据分析,-,何帆,基本数学模型,-,集中趋势统计量,调整平均数(,Trimmed Mean,),将样本数据排序后,按照一定的比率去掉两端最大值,最小值,对剩下的数据求平均,Explore,功能中的调整平均数默认两端各去掉,2.5%,后,对剩下的,95%,的数据求平均,数据分析,-,何帆,基本数学模型,-,集中趋
3、势统计量,几何平均数,(Geometric Mean),加权几何平均数,简单几何平均数,f=1,数据分析,-,何帆,基本数学模型,-,集中趋势统计量,调和平均数(,Harmonic,),是,n,个数的倒数平均数的倒数,适用于平均价格、平均速度方面的计算和分析,公式,数据分析,-,何帆,基本数学模型,-,集中趋势统计量,四分位数,(Quartiles),25,分位数:最低数和中位数之间的中位数,75,分位数:最高数和中位数之间的中位数,其他分位数,数据分析,-,何帆,基本数学模型,-,离散趋势统计量,极差,(Range),最大值,-,最小值,稳定性差,平均差,(Average Differenc
4、e),各样本数据与均值间差异的绝对值的均值,方差,(Variance),标准差,(Standard Deviation,Std Dev),方差的算术方根,数据分析,-,何帆,基本数学模型,-,离散趋势统计量,标准误,(Standard Error,S.D.Mean),是样本平均数的标准差,由于样本抽取的随机性,每次抽取的样本不一,样本均值不一。考虑所有被抽取的样本均值,他们的标准差就是标准误。,数据分析,-,何帆,基本数学模型,偏度,(Skewness),反映数据分布不对称的一个数字特征,当数据为正态分布时,偏度为零,(,=0),II(,0),(,0),(,=0),(,Descriptive
5、Statistics-Frequencies,对话框:,数据分析,-,何帆,Statistics,对话框,分位数,集中趋势统计量,偏度和峰度,离散趋势统计量,数据分析,-,何帆,Chart,按钮,选择图形,定义是按照频数还是按百分比作图,数据分析,-,何帆,应用实例,例,1,对统计出来的红球和值,进行绘制频数表、直方图;计算最大最小值,均数、标准差、中位数,M,、,p2.5,和,p97.5,,并考察偏度和峰度。,数据分析,-,何帆,数据描述过程,是否保存变量的标准化数据,数据分析,-,何帆,Option,按钮,选择显示的次序,选择统计量,数据分析,-,何帆,数据探察过程,功能菜单,Explor
6、e,Explore,过程主要用于对资料的性质、分布特点等完全不清楚时,故又称之为,探索性分析,。,在一般描述性统计指标的基础上,增加有关数据其他特征的文字与图形描述,如茎叶图、箱图等,显得更加详细、全面,有助于用户制定继续分析的方案,数据分析,-,何帆,数据探察过程,对话框,因变量,分组变量,样本标签,数据分析,-,何帆,Statistics,按钮,描述性统计,反映集中趋势的稳健估计量,样本异常嫌疑值,最大最小,5,个,四分数,数据分析,-,何帆,Statistics,按钮,Descriptives,复选框:输出均数、中位数、众数、,5%,修正均数、标准误、方差、标准差、最小值、最大值、全距、
7、四分位全距、峰度系数、峰度系数的标准误、偏度系数、偏度系数的标准误及指定的均数可信区间。,M-estimators,复选框:作中心趋势的最大似然化的稳健估计量,输出四个不同权重的最大似然确定数。,Outliers,复选框:输出五个最大值与五个最小值。,Percentiles,复选框:输出第,5%,、,10%,、,25%,、,50%,、,75%,、,90%,、,95%,位数,数据分析,-,何帆,Plots,按钮,设置多个变量时箱型图的形式,数据分析,-,何帆,Option,按钮,剔除缺失值,成对剔除缺失值,单独分组,用频数表标出,数据分析,-,何帆,实例应用,例,2,以例,1,数据为例,做,Ex
8、plore,过程统计,画出茎叶图,和箱形图。,假设检验,-,平均数比较与,T,检验,数据分析,-,何帆,主要内容,假设检验一般理论,分组平均数比较,单一样本,T,检验,配对样本,T,检验,数据分析,-,何帆,问题的提出,例,3,某工厂用包装机包装奶粉,额定标准为每袋净重,0.5kg.,设包装机称得奶粉重量,X,服从正态分布,据经验知其标准差,=0.015(kg).,为检验包装机的工作是否正常,随机抽取包装的奶粉,9,袋,称得重量为,0.499 0.515 0.508 0.512 0.498 0.515 0.516 0.513 0.524,问该包装机工作是否正常,?,数据分析,-,何帆,假设检验
9、一般理论,基本任务:根据样本信息对未知总体或其数字特征的假设作出合理的判断,基本原理:,小概率事件在一次试验中几乎不可能发生,H,0,原假设,H,1,备择假设,(,对立假设,),对于例,1,可提出如下统计假设,:,H,0,:,=,0,=0.5,H,1,:,0,=0.5,数据分析,-,何帆,假设检验一般理论,对,H,0,进行检验,:,(1),寻找检验统计量,(2),对给定小概率,,寻找拒绝域,0,P,(,x,1,x,2,x,n,),0,|,H,0,为真时,=,接受域,1,:,1,0,=,(样本空间),当样本观测值:,(,x,1,x,2,x,n,),0,时,拒绝,H,0,(,x,1,x,2,x,n
10、),1,时,接受,H,1,数据分析,-,何帆,假设检验一般理论,什么是显著性水平,是一个概率值,原假设为真时,拒绝原假设的概率,被称为抽样分布的拒绝域,表示为,(,alpha,),常用的,值有,0.01,0.05,0.10,由研究者事先确定,数据分析,-,何帆,假设检验一般理论,什么是,P,值,?,是一个概率值,如果原假设为真,,P-,值是抽样分布中大于或小于样本统计量的概率,左侧检验时,,P,-,值为曲线下方,小于等于,检验统计量部分的面积,右侧检验时,,P,-,值为曲线下方,大于等于,检验统计量部分的面积,被称为观察到的,(,或实测的,),显著性水平,数据分析,-,何帆,双侧检验的,P,
11、值,数据分析,-,何帆,左侧检验的,P,值,数据分析,-,何帆,右侧检验的,P,值,数据分析,-,何帆,假设检验一般理论,如何利用,P,值进行决策判断?,单侧检验,若,p-,值,不能拒绝,H,0,若,p-,值,拒绝,H,0,双侧检验,若,p-,值,/2,不能拒绝,H,0,若,p-,值,/2,拒绝,H,0,数据分析,-,何帆,假设检验一般理论,检验分类,样本平均数与总体平均数的比较检验,(,单个样本,),两独立样本平均数的比较,两个配对样本平均数的比较检验,多个平均数的样本检验,成数假设检验,方差或标准差假设检验,分布检验:正态分布检验、均匀分布检验,非参数检验:,2,检验法、,F,检验法等。,
12、数据分析,-,何帆,分组平均数比较,问题描述,某医师测得,40,人的血红蛋白值(,g%,),试比较男性和女性的血红蛋白值是否有差异,?,(,数据见血红蛋白值,.sav),分组平均数比较是为了比较同一个总体抽样中不同类别的均数的差异性,数据分析,-,何帆,分组平均数比较,菜单,Analyze-Compare Means-Means,点击弹出如下对话框,主要功能,分组计算均值,对均值进行差异比较,数据分析,-,何帆,分组平均数比较,对分组变量进行单因素方差分析,并计算用于度量变量相关程度的,eta,值,检验线性相关性,实际上就是上面的单因素方差分析,数据分析,-,何帆,分组平均数比较,-,结果分析
13、F:,统计量的值,Sig.,观测显著性水平 即,P,值,数据分析,-,何帆,单一样本,T,检验,用于检验样本平均与总体平均数的差异,统计量:,T,统计量,其中,S,是修正的样本标准差,主要检验某一个均值是否和某一固定值相符合,。,数据分析,-,何帆,单一样本,T,检验,例,4,前面给出的血红蛋白值的均值是否等于,11,,,12,,,13,数据分析,-,何帆,单一样本,T,检验,数据分析,-,何帆,单一样本,T,检验,结果分析,t,统计量值,自由度,P,值,置信区间的上下限,数据分析,-,何帆,练习,1,有一种新型农药防治柑桔红蜘蛛,进行了,9,个小组的实验,其防治效果为:,95%,,,92%
14、88%,,,92%,,,93%,,,95%,,,89%,,,98%,,,92%,与原用农药的防治效果,90%,比较,分析其效果是否高于原用农药。,数据分析,-,何帆,练习,2,在有小麦丛矮病的麦田里,调查了,13,株病株和,11,株健株的植株高度,分析健株高度是否高于病株?其调查数据如下:,健株,26.0 32.4 37.3 37.3 43.2 47.3 51.8 55.8 57.8 64.0 65.3,病株,16.7 19.8 19.8 23.3 23.4 25.0 36.0 37.3 41.4 41.7 45.7 48.2 57.8,该数据保存在,“,丛矮病的麦田,.SAV,”,文件
15、中,数据分析,-,何帆,配对样本,T,检验,配对样本,是相对独立样本而言的,指,一个样本在不同时间做了两次试验,,,或者有两个类似的记录,,从而比较其差异。,例如:下列哪个属于配对样本?,一班和二班的数学分析成绩,一班的期中和期末成绩,数据分析,-,何帆,配对样本,T,检验,问题陈述,例,1,某制鞋厂为比较用来做鞋后跟的两种材料的质量,随机选取了,15,名男子,让他们每人穿一双新鞋,每双鞋中有一只是用材料,A,作后跟的,另外一只是用材料,B,作后跟的,其厚度均为,10cm,,一个月以后再次测量其厚度,数据如下:,数据分析,-,何帆,配对样本,T,检验,序号,1,2,3,4,5,6,7,8,9,
16、10,11,12,13,14,15,材料,A,6.6,7.0,8.3,8.2,6.2,9.3,7.9,8.5,7.8,7.5,6.1,8.9,6.1,9.4,9.1,材料,B,7.4,5.4,8.8,8.0,6.8,9.1,6.3,7.5,7.0,6.5,4.4,7.7,4.2,9.4,9.1,请根据以上数据判断那种材料耐磨性更好些?(显著性水平为,0.05,),数据分析,-,何帆,配对样本,T,检验,数学模型,T,统计量定义如下:,T,统计量满足的,t,分布自由度为,:,对子数,-1,数据分析,-,何帆,配对样本,T,检验,统计分析,Paired samples T test,是根据配对样本
17、均值,之间的差异进行检验的。,基本假设:,数据分析,-,何帆,配对样本,T,检验,功能菜单,Analyze-Compare Means-Paired-Samples T Test,对话框,显示配对的变量,显示配对后的变量组,可以同时做多对,数据分析,-,何帆,配对样本,T,检验,结果分析,因为,P0.05,拒绝原假设,认为两种材料的耐磨性不一样。,A,的均值为,7.7933,,,B,的均值为,7.1733,,可以认为,A,材料比,B,材料耐磨。,数据分析,-,何帆,注意,利用服从,t,分布的统计量作为检验统计量的检验方法称为,t,统计量,前提是假定总体服从正态分布的,数据分析,-,何帆,练习,3,某单位研究饮食中缺乏维生素,E,与肝中维生素,A,含量的关系,将同种属的大白按性别相同,年龄、体重相近者配成对子,共,8,对,并将每对中的两头动物随机分到正常饲料组和维生素,E,缺乏组,过一定时期将大白鼠杀死,测得其肝中维生素,A,的含量,问不同饲料的大白鼠肝中维生素,A,含量有无差别?,数据见,“,大白鼠,.sav,”,






