1、单击此处编辑母版标题样式,单击此处编辑母版文本样式,二级,三级,四级,五级,2020/3/23,#,社会调查教程精编本,(第二版),江立华 水延凯 主编,国家级精品课程教材,新编,21,世纪社会学系列教材,第十三章,统计分析,第十三章 统计分析,第一节 统计分析概述,第二节 调查报告的结构和体制,第三节 调查报告的写作步骤与撰写要则,第一节 统计分析概述,统计分析的目的,一,二,第一节 统计分析概述,统计分析的过程,三,统计分析的层次,统计分析就是运用统计学原理和方法处理通过调查所获得的数据资料,简化和描述数据资料,揭示变量之间的统计关系,并进而推断总体的一整套程序和方法。,四,推断统计的基本
2、原理,统计分析的目的,简化和描述数据,。在社会调查中,搜集的数据多种多样,数量庞大。在撰写调查报告时,没有必要也没有可能罗列每个数据,而是运用统计分析方法将调查数据简化后再描述出来。,用样本推断总体,。在随机抽样调查中,对样本的调查只是手段而不是目的,真正的目的在于通过对样本进行分析所获得的统计量,来推断总体参数。,样本统计量,总体参数,发现变量之间的统计关系,。,一,统计分析的过程,在数据录入和清理之后,数据的统计分析,大致要经过两个过程:,数据预处理,,就是在统计分析之前对清理后的数据做预备性处理。预处理,一般包括缺损值处理、加权处理、变量重新编码、数据重新排序,以及创造新变量等。,数据统
3、计分析,,就是调用统计软件中的各种统计程序对数据进行分析,包括单变量、双变量、多变量统计分析,以及制作统计图、统计表等一系列 工作。,二,统计分析的层次,按照统计分析的性质,可分为:,描述统计,描述统计是运用数字(如频数、百分比、平均值)和图、表等形式汇总所收集来的数据信息。,目的:在不歪曲或丢失大量信息的情况下,将 数据信息简化为更易理解的形式。,推断统计。,是运用概率分布知识,通过样本统计量预测总体参数的分析方法。,目的:通过对样本的调查来了解总体。,当数据描述结果仅适用于一个样本,而我们希望了解总体的特征时,可以使用推断统计。,三,统计分析的层次,按照统计分析涉及变量的多少,可分为:,单
4、变量统计分析,只涉及一个变量,它用平均数、百分比等来描述单个变量的 特征,也可以进行区间估计、显著性检验等推断统计分析。只能进行描述性研究。,双变量统计分析方法,,包括列联表分析与,检验、秩相关检验、单因 素方差分析、简单线性回归分析等。,当一项统计分析涉及三个或三个以上变量(其中至少有一个因变量)时,则被称为,多变量或多元统计分析,。,双因素方差分析、多元线性回归分析、因子分析、,Logistic,回归分析等。,如果要进行解释性研究,就必须进行双变量统计分析或多变量统计分析。,三,推断统计的基本原理,推断统计的必备前提是,样本数据必须来自随机抽样调查。只有用随机方法 抽取的样本,其样本统计量
5、才具备推断总体的资格。,推断统计与抽样分布,样本的抽样分布的目的,就是运用它来由样本统计量推断总体参数值。因此,抽样分布是推断统计的依据或工具。,抽样分布,,是指在一个总体中重复抽取许多大小一样的样本的统计量而 形成的分布。,抽样分布的一个重要作用在于,预测统计量的落点及其与所估计参数的接近程 度,。抽样分布的建立与作用并非只是人们的一种设想,它有其实际的数理基础或 理论依据,这就是,中心极限定理,。,四,推断统计的基本原理,参数估计,把通过样本计算出来的统计值称为样本统计量,简称统计量,而把总体统计值称为参数。,参数估计就是运用样本统计量对总体参数进行推断或估计的统计过程与统计方法,。参数估
6、计包括:,点值估计,点值估计是选择一个适当的样本统计量直接代表总体的参数值。,优点:无偏性、一致性、有效性,缺点:无法知道估计的误差到底有多大,区间估计,区间估计是用一个数值区间表示未知总体参数落入该区间的概率或可能性有多大的一种统计方法。,置信区间是指在进行区间估计时,在某一概率水平下总体参数所处的数值区间。,四,推断统计的基本原理,区间估计,理论基:,抽样分布。,核心问题:,把样本统计量与总体参数之间的关系转换成抽样分布来处理。,布具有的特性是:总体平均数或抽样分布平均数处于样本平均数,1.96,个抽样分布标准差范围内的概率为,95%,,处于样本平均数,2.58,个抽样分布标准差范围内的概
7、率为,99%,。,假设检验,假设检验是以抽样分布原理为基础,检验调查样本中的统计特性是否在总体 中同样存在的一种统计方法。它是推断统计中最重要也是最常用的方法。,参数估计,是用具体的样本统计量(如平均数、标准差、百分比等)来推断总体参数,而,假设检验,则是检验样本中的事实、关系在总体中是否也存在。,属于推断统计范畴,随机抽样是其前提或必备条件。进行假设检验,必须首先建立两个假设:,四,虚无假设,:假设在样本中观察到的事实或变量之间的关系在总体中并不存在,样本中出现这种情形是由抽样误差造成的。,备择假设,:与虚无假设相反的假设,就是假设在样本中出现的情况并不是抽样误差,在总体中也同样存在。,假设
8、检验的过程,是以检验虚无假设,中心展开的。检验的结果无非两种情况:,一是接受虚无假设,二是拒绝虚无假设,、接受备择假设,推断统计的基本原理,四,第二节 单变量统计分析,集中量数分析,一,二,第二节 单变量统计分析,离散量数分析,三,单变量推断统计,集中量数分析,量数分析:用一个具体的统计量反映一组数据向该统计量集中的趋势的统计方法。它所表示的是一组数据集中的程度或水平。,集中量数有平均数、中位数、众数、四分位数、百分位数,以及倒数平均数、几何平均数等。,平均数(算术平均数):,常用,M,和,表示。,条件:所有数据必须是定距或定比测量层次的数据。,公式:,。适用于用单个原始数据计算平均数。,中位
9、数(,中数、中点数):位于按一定顺序排列的一组数据中央位置的数值。定序、定距、定比数据可以求中位数,定类数据则无中位数可言。常表示为,。,众数,(范数、密集数、通常数等):常用符号,表示。指在一组数据中出现次数最多或出现频率最高的数。众数也是一种集中量数,同样用于表达一组数据的集中趋势。,一,离散量数分析,离散量数:表示一组数据变异程度或分散程度的量数。,离散量数越大,表示数据分布范围越广,越不集中,越不整齐;离散量数越小,则表示数据 分布范围越集中,变动程度越小。,离散量数有多种,如方差与标准差、全距、四 分位差、异众比率、离散系数、偏度系数等。,方差与标准差,计算方法:把一组数据中的每个数
10、据与 该组的算术平均数相减,将其差进行平方然后相加,再除以数据的个数。,计算公式:,方差的平方根就是标准差,即,二,离散量数分析,方差与标准差,用定义公式求方差和标准差,标准差公式为:,;,方差公式为:,用原始数据计算方差和标准差,;,标准差是最重要、应用最广泛的离散量数。标准差的值越大,表明数据的离 散程度越大,也就是数据的差异性越大,分布越不均匀;标准差越小,则数据的 离散程度越小,数据的差异性越小,数据越整齐。,全距:,又称极差,它是一组数据中最大值与最小值之差,通常用,R,表示。由于其计算过于简单,仅由数据中最大值与最小值两个数据之差而得,因而反映数据的离散状况太粗略、不灵敏,只能作为
11、离散量数的参考性指标。,二,离散量数分析,异众比率,是指非众数的频数与全部个案数的比值,用,VR,表示,其含义是众数所不能代表的其他数据(即非众数数据)在总数据中的比重。,VR,值越大,表示非众数的个案所占总数据的比例越大,也就是众数的代表性越小;,VR,值越小,则表示众数的代表性越大。是从反面检验众数的一项指标。,VR,的计算公式为:,其中,,VR,表示异众比率,,n,表示样本数量,,表示众数的样本个数。,离散系数,标准差与算术平均数的百分比值,用,CV,表示。,计算公式:,其中,,CV,表示离散系数,,S,表示标准差,,X,表示算术平均数。离散系数的最大功用是可以比较不同单位数据分布的差异
12、程度。,二,离散量数分析,偏度系数,用来描述数据分布特征的统计量数。偏度;数据分布的偏倾方向和程度。属于离散系数范畴。,它能说明数据总体是否近似于正态分布,从而确定能否进行统计推断或如何进行统计推断。,按平均数与众数的离差求偏度系数(皮尔逊偏度系数),:,;其中,,表示偏度系数,,表示样本数据的平均数,,表示众数值,,S,表示标准差。,0,时,数据呈严格的正态分布;当,0,时,分布呈正偏态;当,0,时,分布呈负偏态。,越大,其偏向程度越大。,按平均数与中位数的离差求偏度系数:,在数据呈基本正态分布的情况下,平均数、中位数、众数三者之间存在如下关系:,;,二,单变量推断统计,参数估计(主要是区间
13、估计,),是用样本统计量来估计总体参数,它通常只涉及一个变量,也有涉及两个变量的,如相关系数的区间估计等,只是较少用到。在单变量分析中,可分为三种情况或类型:总体平均数的参数估计、总体比率的参数估计和总体方差的参数估计。,假设检验,:,在单变量分析范围内,分为三大基本类型,即总体平均数的假设检验、总体比率的假设检验、总体方差的假设检验。每一类型又可分为两种小类型:,单样本总体假设检验:对单个样本的统计量(如平均数、比率、方差)可否推断总体的检验;,双样本差异的总体假设检验:对两样本统计量的差异(如平均数之差、比率之差、方差之差)是否在总体中也存在的检验,亦即要证明两样本的差异是否由来自两个不同
14、的总体造成。,三,第三节 双变量统计分析,双变量统计分析的内容,一,二,第三节 双变量统计分析,双变量统计分析的方法,双变量统计分析的内容,双变量统计分析分为相关关系和因果关系两种形式:,两变量间的相关关系,:当一个变量,X,发生变化时,另一个变量,Y,也随之发生变化,相反,当,X,发生变化时,,Y,也发生变化。,社会现象之间的相关关系,从不同角度可区分为不同类型:,按照相关方向的不同:可分为正相关和负相关,按照相关强度的不同:可分为完全相关、不相关和不完全相关,按照相关形式的不同:可分为线性相关和非线性相关,两变量间的因果关系,:一变量的变化可以确定为另一变量变化的原因的关系。,要确定两个变
15、量之间的因果关 系,必须同时满足三个条件:,两变量间必须存在相关关系,先有原因,后有结果。,必须确定变量,X,与,Y,之间的关系,不是由于第三个变量的存在而呈现出的一种虚假关系。,一,双变量统计分析的方法,在双变量统计分析中,由于变量的测量层次不同,因而计算两变量相关系数 的方法和假设检验的方法也不相同。,变量的测量层次,可分为定类、定序、定距、定比四种类型,这样就形成了多种不同测量层次变量的两两组合。,二,双变量统计分析的方法,定类,-,定类(或定序)变量分析,当两个变量均为定类变量,或一个变量为定类变量、另一个变量为定序变量时,抽样分布属于 分布,因而进行 检验,用,或,tau-y,计算两
16、个变量之间的相关强度与方向。值的计算公式为:其中,,表示实际观察值频数,,表示理论意义上的期望值频数。,二,双变量统计分析的方法,定类,-,定类(或定序)变量分析,PRE,(,proportion reduction in error,)叫作消减误差比例。,PRE,表示的就是当我们用一个变量,X,来解释另一个变量,Y,时,能够减少多少比例的误差,能够消减误差的比例越大,表明两个变量的关系越密切,亦即相互影响的作用力越大,反之则越小。,PRE,取值区间为,0,,,1,。,消减误差比例的计算公式为,二,双变量统计分析的方法,定序,-,定序变量分析,对两个定序变量的统计分析,一般运用,Gamma,或
17、公式计算相关系数,并进行检验,Z,或,t,检验。,Gamma,级序相关分析方法。,Gamma,简称,G,,属于级序相关计算法,就是在计算公式中使用各原始数据的等级次序而不是数据本身。它又属于对称相关测量法(不区分自变量和因变量),且具有,PRE,特性。计算公式如下:,G,表示,Gamma,级序相关系数,,表示同序对数,,表示异序对数。同序对数是指两个数据或个案在两个变量上的相对等级相同的对数,不相同的便称为异序对数。,Gamma,系数的假设检验分为两种情况:当样本规模属大样本(,n,100,)时,,Gamma,的抽样分布接近于正态分布,故可用,Z,检验法进行假设检验。,Z,值的计算公式为:其
18、中,Z,表示正态分布状态下的,Z,分数值,,表示,Gamma,级序相关系数,,表示同序对数,犖犱 表示异序对数,,n,表示样本量。当样本量为小样本时(,n,100,)时,则要改用,t,检验法。,t,值的计算公式为:;,二,双变量统计分析的方法,定类(或定序),-,定距变量分析,在双变量统计分析中,当一个变量为定类变量或定序变量(定序变量作为定 类变量处理),另一个变量为定距变量时,需进行方差分析和,F,检验(或,t,),并用,Eta,平方系数来测量两变量的相关强度,,Eta,平方系数简称,同样具有,PRE,特征。,计算方式为,二,其中,,表示,Eta,平方系数,,Y,表示因变量的数值,,Y,表
19、示因变量的平均数,,表示在每个自变量取值(,)上各因变量取值的平均数,,表示每个自变量(,)的个案数,,n,表示总个案数。,在自变量为定序变量,因变量为定距变量时,其统计方法和定类定距变量 完全一样,也就是把定序变量作为定类变量来处理。,双变量统计分析的方法,定距,-,定距变量分析,两个定距变量的相关分析,:两个定距变量的相关系数,通常使用皮尔逊积差相关(或积矩相关)公式计算。由于原始公式计算时略为复杂,为了能直接运用,X,和,Y,的原始数据计算相关系数,可以将皮尔逊积差相关公式转化成如下公式:,二,其中,,r,表示皮尔逊积差相关系数,,X,表示变量,Y,的取值,Y,表示变量,Y,的取值,,n
20、表示个案数或样本容量。在处理分组数据时,则采用如下计算公式:,皮尔逊积差相关系数,r,自身不具备,PRE,特征,但,具备特征。在实际研究中,我们通常用,表示一个变量,X,在解释另一个变量,Y,时所能消减的误差比例,从而更直观地表示出变量,X,与变量,Y,之间的相关强度。因此,这个,在相关分析与回归分析中都具有很高的应用价值,被称为决定系数(,coefficient of determination,)。,双变量统计分析的方法,一元线性回归分析,对两个定距变量进行回归分析,被称为一元线性回归分析,即只有一个自变量,X,,且两变量间存在线性相关关系。一元线性回归分析,实质上就是要在变量,X,和变
21、量,Y,之间建立一个线性回归方程,从而用,X,去预测,Y,。一元线性回归方程的标准形式为:,建立回归方程的主要问题是求出方程中回归系数,b,(回归线的斜率)和回归线在轴上的截距,a,,这一过程被称为配制回归线或拟合回归线。确定回归系数,b,的原则是使散点图(根据,X,和,Y,一一对应的值绘制而成的分布图)上各点距回 归线上的相应点的垂直距离平方和为最小,这种求回归系数,b,的方法被称为最小 二乘方法。求回归系数,b,的公式为:,二,这个公式可以说是回归系数,b,的定义公式,为计算方便,可将其转化为能直接用原始数据计算,b,的公式:,双变量统计分析的方法,一元线性回归分析,其中,,b,表示回归系
22、数,,X,表示自变量取值,,Y,表示因变量取值,,n,表示样本量或样本规模,,表示自变量的平均数,,表明因变量的平均数。,回归分析的大致程序是:先根据研究目的确定自变量,X,和因变量,Y,,对,X,和,Y,进行相关分析(如做散点图,计算,X,与,Y,的相关系数),确定进行回归分析有无价值(如果,X,与,Y,相关强度太弱,则回归分析价值不大)和能否进行回归分析(如,X,与,X,是否存在线性相关关系而不是曲线相关关系),然后计算回归系数,b,和截距,b,,建立回归方程,并用自变量,X,对因变量,Y,进行预测。,二,第四节 多变量统计分析简介,第四节多变量统计分析简介,1,、多变量相关分析,是相对于
23、双变量相关分析而言的。在双变量相关分析中,是用一个统计量(如相关系数,、,G,、,r,等)反映两个变量间的相关关系。当变量达到三个或三个以上时,相关关系的分析就属于多变量相关分析或多元相关分析了。,与多变量相关分析直接有关的方法,有,偏相关分析,复相关分析,典型相关分析,第四节多变量统计分析简介,2,、多元回归分析,是研究两个或两个以上自变量(,、,)和一个因变量,(,Y,)之间的关系,并用自变量解释与预测因变量的多变量统计分析方法。,多元线性回归分析,是多元回归分析方法中的基本形式,它的应用通常对数据有比较严格的要求。,Logistic,回归分析,是自变量为定距、定比变量(或虚拟变量),因变
24、量为定类、定序变量条件下的多元回归分析方法。,3,、,多元方差分析:,是对多个定类变量(自变量)与多个定距变量(因变量)关系的多变量统计分析方法,其分析的统计原理与方法同一元方差分析相似,只是程 序更加复杂。,4,、,因子分析,:是一种从众多相关变量中抽取若干个共同因子,从而使复杂数据得 以简化的多变量统计分析方法。被抽取的因子称公共因子。因子分析的作用主要表现在两个方面:其一,探索数据的基本结构和变量之间的关系。其二,用公共 因子简化数据,以便于做进一步分析。,第四节多变量统计分析简介,5,、对数线性模型分析:,是在自变量和因变量都是定类或定序变量时,用以分析 它们之间的相互关系的多变量统计
25、分析方法,它处理的是以交互分类表形式出现 的定类或定序数据。,6,、,结构方程模型分析,:是一种用于建立、估计、检验因果关系模型的功能强大 的多变量统计分析方法。它把因子分析、回归分析、路径分析、方差分析等多种 多变量统计分析方法有机地整合在一起。,7,、,多层线性模型分析:,是专门用于对具有层次结构特性的数据进行多变量统计 分析的统计方法。,本章要点,1,、统计分析就是运用统计学原理和方法处理通过调查所获得的数据资料,简化和描述数据资料,揭示变量之间的统计关系,并进而推断总体的一整套程序 和方法。,2,、统计分析可按不同标准划分层次。按照统计分析的性质,可分为描述统 计和推断统计;按照统计分
26、析涉及变量的多少,可分为单变量统计分析、双变量 统计分析和多变量统计分析。,3,、描述统计是关于样本的统计方法,其分析结果是样本统计量;推断统计 是通过样本推断总体的统计方法,包括参数估计与假设检验。,4,、单变量统计分析,可分为集中量数分析和离散量数分析两大部分;单变 量统计分析不仅可做描述统计,而且可做推断统计。,5,、双变量统计分析,主要分析两个变量之间的关系,包括相关关系与因果 关系。,6,、相关关系可分为不同类型:按照相关方向的不同,可分为正相关和负相 关;按照相关强度的不同,可分为完全相关、不相关和不完全相关;按照相关形 式的不同,可分为线性相关和非线性相关。,本章要点,7,、要确
27、定两个变量之间的因果关系,必须同时满足三个条件:,两变量 间必须存在相关关系。,必须确定自变量变化在前,因变量变化在后。,必须确定变量,X,与,Y,之间的关系,不是由于第三个变量的存在而呈现出的一种虚假关系。,8,、双变量统计分析有各种各样的方法,选择双变量统计分析方法的基础是变量的测量层次。双变量统计分析同样可进行描述统计与推断统计。,9,、在社会统计中,消减误差比例(,PRE,)是一个重要范畴,也是一种重要 的统计方法。,10,、多变量统计分析是指涉及三个及三个以上变量(其中至少一个因变量)的统计分析方法。它是当代统计学中发展最迅速、最活跃的领域。,本章中的基本概念,统计分析描述统计,推断统计参数估计,点值估计区间估计,假设检 验虚无假设,备择假设置信水平,置信区间集中量数,离散量数相关关系,因果关系抽样分布,统计量参数消减误差比例()方差与标 准差,思考与练习,思考与练习,思考与练习,推荐阅读书目,