1、社会统计学第一章 导论一社会统计学的产生与发展1.国势学派:(又称记录学派或历史学派)对国家显著事迹的记录和比较。“有名无实代表人物:阿享瓦尔(17191772)“统计学之父”、康令(16061681)2。政治算术学派:对国家事项首创数字对比、分析。“有实无名”代表人物:威廉配第(16231687)“政治经济学之父”、格朗特(16201674)3.数理统计学派:将法国古典概率论引入统计学,用纯数学的方法对社会现象进行研究。代表人物:凯特勒(17961874)“现代统计学之父”4。社会统计学派:研究社会现象代表人物:克尼斯(1821-1898)、梅尔(18411925)、恩格尔(18211896
2、)二社会统计学的对象和特点社会统计学:用于统计的一般原理,对社会各种静态结构和动态趋势进行定量描述或推断的一种方法与技术。研究对象概括而言是指社会现象的数量方面。社会统计学特点:就研究对象而言,社会统计学主要是从研究和反映一定经济基础之上的上层建筑方面去认识社会;就研究内容而言,社会统计需要对人们的态度、观念、行为进行度量,测量这些社会现象目前还没有一个精确而统一的尺度,只能以近似估算或词语表达等方式来代替;就调查方法而言,社会统计中,由于其研究对象所具有的特征,抽样调查更为常用。三社会统计学的方法1.大量观察法:就总体中足够多的单位进行调查和综合分析,用以反映社会总体的数量特征.2。大数定理
3、:是随机现象出现的基本规律,一般意义为:观察过程中每次取得的结果可能不同(因为具有偶然性),但大量重复观察结果的平均值却几乎接近某个确定的数值。3.综合指标法4.统计推断法四社会统计学的几个基本概念1总体与单位总体:作为统计研究对象的,由许多具有共性的单位构成的整体。单位:构成整体的每一个个体。2标志与变量,标志:总体的每个单位都具有许多属性和特性,说明总体单位属性或数量特征的名称在统计上称为标志。数量标志:凡能用数量的多少来表示的标志,称为数量标志,如年龄,它们用以说明事物量的规定性.品质标志:凡不能用数量的多少来表示而只能文字表述的标志称为品质标志,如性别,它们用以说明事物质的规定性。变量
4、:可变的数量标志能够用数值表示,我们称之为变量。3指标与指标体系指标:反映总体数量特征的概念或范畴。数量指标:说明总体在外延上的数量特征,如人口总数、居民收入、产品产量等,一般都以总量指标的形式出现.质量指标:说明总体在内涵上的数量特征,如人口密度、劳动生产率、产品价格等,一般都以相对指标或平均指标的形式出现。!数量指标数值的大小随总体范围的大小而增减变动,而质量指标数值的大小与总体范围的大小没有直接关系.第二章 社会统计资料的搜集一统计调查的方法1.普查:即全面调查,就是对研究对象的全体作无一遗漏的逐个调查2.重点调查就是在研究现象的总体中,选取其中的重点单位进行调查.所谓重点单位,就是在总
5、体中虽然所占数目不多,但这些单位的被研究的标志总量在总体的标志总量中却占有很大比重。3。典型调查就是根据调查的目的和要求,在对所研究对象进行初步全面分析的基础上,从中选择有代表性的单位,做周密细致的调查。4.抽样调查:是按照科学的原理和计算,从若干单位组成的事物总体中,抽取部分样本单位来进行调查、观察,然后用所得到的调查结果来推断总体。简单随机抽样,首先它对总体中所有单位不进行分组只进行编号;然后为组成样本,它赋予总体中每一个单位以相同的被抽中的机会。!重点区分重点调查、典型调查、与抽样调查二概念的操作化与测量测量水平:1。 定类尺度:将调查对象的不同属性或特征加以区分,标以不同的名称或符号以
6、确定其类别.具有对称性和传递性,常见的定类尺度有性别、血型、宗教信仰等。2定序尺度:按照某种逻辑顺序将调查对象排列出高低大小,确定其等级及次序。具有反对称性和传递性,也具有方向性。无法进行加减乘除运算,只能进行大于和小于的运算。3.定距尺度:不仅能够将社会现象或事物区分为不同的类别,不同的等级,而且可以确定它们相互之间的间隔距离和数量差别.可进行减法运算,无法进行除法运算.4。定比尺度:可以确定一个绝对的或非任意性的零点,特征是两个数可以组成一个有意义的比率.常见的定比尺度有身高、体重、人数、收入等.三统计误差登记性误差:是指在调查和统计过程中,由于各种主客观因素而引起的技术性、操作性误差以及
7、由于责任心缘故造成的误差等。代表性误差:是指由调查方式本身所决定的统计指标和总体指标之间存在的差数。全面调查只产生登记性误差没有代表性误差,而进行非全面调查时两种误差都可能发生。第三章 社会统计资料的整理一统计分组的原则:1.分组应使各类别构成之和等于总体.首先,分组应当穷尽总体的全部单位,即“穷举”;其次,分组界限的选择应使划分后每一数据只归属一组,不能造成各组的重叠和混淆,即“互斥”。2.分组设计应能反映统计总体的分布规律性.二频数分布数列:在统计资料收集的基础上,按分组原则,将总体中所有单位依一定顺序归类整理,即可得到能够表明总体单位总数在各组分配情况的频数(或次数)分布数列,简称数列。
8、频数分布数列是统计分组工作的产物。1.品质数列:按品质标志进行分组;与定类尺度与定序尺度相联系;2.数量数列:按数量标志进行分组.与定距尺度和定比尺度相联系;三。统计总体的性质:同质性、大量性、变异性四变量数列的两个构成要素:1.变量值用来分组并按大小顺序排列的数量标志的具体数值,用符号Xi表示;2.频数总体单位在各组中出现的次数,用符号fi表示;将各组频数除以总体单位总数N就得到相对频数,简称频率,用符号Pi表示.变量数列分为离散型变量数列和连续性变量数列。1.离散变量数列所描述的对象的数量特征,可以按一定次序列出它的整数值,相邻两变量值不会出现小数。离散变量的整数值如果变动幅度较小,可以将
9、每一个变量值列为一组,编制单项数列;整数值如果变动幅度较大,而且总体单位数N又很大,则要编制组距数列。2。连续变量数列因在一个区间可以有无限多数值,无法按顺序一一列举,只能编制组距数列,相邻两组交界处的组限重合。至于恰等于某一组限的数据,应按照“上限不包括在内的原则处理。五累计频数一般用大写字母F来表示,累计又分为向上累计和向下累计。1。所谓向上累计,是以变量数列首组的频数为始点,逐个累计各组的频数,每组累计频数展示了小于该组上限的频数合计有多少。2。所谓向下累积,则是以变量数列末组的频数为始点,逐个累计各组的频数,每组累计频数展示了大于该组下限的频数合计有多少。六直方图是用矩形(或长条)的高
10、度来表示数列各组的频数或频率.(直方图含义及与频率之间的关系-张彦课本P39页)七偏态分布:按偏离方向不同,分为右偏(正偏)和左偏(负偏).右偏,曲线向右拖较长尾巴;左偏,曲线向左拖较长尾巴。第四章 集中趋势测量法一算术平均数:表示某一总体之总体单位平均所得的标志值的水平。算数平均数的性质:1。各变量值与算术平均数的离差之和为0。即x-x=02。各变量值对算术平均数的离差的平方和小于它们对任何其他数偏差的平方和3。受抽样变动的影响较小4.受极端值影响较大5。分组资料如果有开放组距时,不经特殊处理不能进行计算二中位数:(1)性质:1.各变量与中位数之差的绝对值总和小于他们对任何他数之差的绝对值总
11、和;2.中位数不受极端值的影响;3.对于分组资料有开放组距可以求出中位数;4.中位数受抽样变动的影响与算术平均数相比较大。(2)。按中位数所在组的下限求中位数:组距数列 Md=L+N2-Fn-1fnh其中:L为中位数所在组的下限; fn为中位数所在组的频数; Fn-1 为小于中位数所在组的各组频数之和(向上累计);N为总体单位数;h为中位数所在组组距;(3)。按中位数所在组的上限求中位数:组距数列:Md=U-Fn-N/2fnh其中:u为中位数所在组的上限; fn为中位数所在组的频数; Fn 为包括中位数所在组的各组频数之和(向上累计); N为总体单位; h为中位数所在组的组距;三四分位数第一四
12、分位数:Q1=l1+N/4-F1f1h1第三四分位数:Q3=l3+3N/4-F3f3h3其中:F1 为小于第一四分位数所在组的各组累计频数(向上累计); l1 为第一四分位数所在组的下限; f1 为第一四分位数所在组的频数; h1 为第一四分位数组所在组的组距; N为总体单位数第三四分位数各符号以此类推!四众数:频数出现的峰值组距数列求众数:M0=L0+11+2h0其中:L0 为众数所在组的下限; 1 为众数所在组频数与前一组频数之差; 2 为众数所在组频数于后一组频数之差; h0 为众数所在组组距;第五章 离散趋势测量一全距:最大变量值与最小变量值之差,用R表示。极差越大,表明变量值之间的差
13、异越大。极差适用于定序变量和定比变量。全距最大的优点是:计算简单,便于理解.缺点是:1。受极端值影响大,遇含开口组的资料时将无法计算;2。由于没有量度中间各个单位间的差异性,所以数据利用率很低,信息丧失严重;3.受抽样变动影响很大。二四分位差:第三四分位数和第一四分位数的半距。用QD表示 QD=Q3-Q12四分位差的意义是去掉数列中四分之一最小的部分和四分之一最大的部分,再根据中间50部分测定四分之一的全距为多少,四分位差的优点是避免了极端值变动的影响.三平均差:各变量值对其算术平均数(或中位数)离差绝对值的算术平均数。用AD表示 AD=X-XN对于分组资料.计算平均差需要加权式: AD=fX
14、-Xf四标准差:各变量值对其算术平均数的离差平方的算术平均数的算术平方根,标准差是测定总体各单位标志值的离散状况和差异程度的最佳指标.对于未分组资料,求标准差公式:(总体标准差可用表示) s=X-X2N=X2N-XN2 对于分组资料,要用加权式处理:s=fX-X2N五异众比率:指非众数出现的次数占总数的比率。用VR来表示 VR=N-fm0N 其中:fm0为众数的频数,N为总体单位异众比率的意义在于能够表明众数不能代表的那一部分变量值在总体中的比重,异众比率越大,各变量值相对于众数越离散;异众比率越小,各变量值相对于众数越集中六变异系数:用离势的绝对指标除以其平均指标来求离势的相对指标,就可以在
15、计量单位或平均水平不一的对象之间进行直接比较,这种由绝对离势转化而来的相对离势称为变异系数,用符号V表示。变异系数越大表明离散程度越大。1.全距系数:是众数据的全距与其算术平均数之比。计算公式为: VR=RX2。平均差系数:众数据的平均差与其算术平均数之比.计算公式:VAD=ADX3.标准差系数:众数据的标准差与其算术平均数之比。计算公式:VS=SX第六章 相关与回归分析一变量之间的相互关系1.相关程度:完全相关、不完全相关、完全不相关2。相关方向:(区分)正相关关系:指一个变量的值增加时,另一个变量的值也增加负相关关系:指一个变量的值增加时,另一个变量的值却减少3。因果关系与对称关系:因果关
16、系满足条件:(1)两个变量有共变关系,即一个变量的变化会伴随着另一个变量的变化。(2)两个变量之间的关系不是由其他因素形成的,即因变量的变化是由自变量的变化引起的.(3)两个变量的产生和变化有明确的时间顺序,即一个在前,另一个在后,前者称为自变量,后者称为因变量.对称关系:对于表现为对称关系的相关关系来讲,在两个变量之间分不清哪个是自变量,哪个是因变量,或者说自变量和因变量可以根据研究目的任意选定。二定类变量的相关分析(一)列联表是按品质标志把两个变量的频数分布进行交互分类,由于表内的每一个频数都需要同时满足两个变量的要求,所以列联表又称条件频数表.(学会根据列联表进行分析 -张彦课本P198
17、页)(二)消减误差比例(记为PRE):表示根据一个变量(自变量X)的值去预测另一个变量(因变量Y)的值时,所减少的误差比率。即减少了百分之多少的误差. PRE=原来的误差-后来的误差原来的误差=E0-E1E0 0PRE1(三)系数,统计值域0,1,0表示没有相关,1表示全相关.(1).对称的系数(假设X为自变量,Y为因变量) =fX0+fY0-FX0+FY02n-FX0+FY0式中:fY0为X的每一分类中Y分布的众数的频数 fX0为Y的每一分类中X分布的众数的频数 FX0 为X边际分布中的众数的频数 FY0为Y边际分布中的众数的频数 n为样本单位数(2).不对称的系数(假设X为自变量,Y为因变
18、量)=fY0-FY0n-FY0式中: fY0为X的每一分类中Y分布的众数的频数 FY0为Y边际分布中的众数的频数 n为样本单位数(3).系数特征:1.0=12.具有PRE意义3.对称与不对称公式不同4.以众数为预测的准则,对众数以外的条件频数不予理会5。如果众数频数集中在列联表的同一行时,=0.无法显示变量间相关性(四)系数,求值公式为: =f2FX-FY2nn-FY2n 式中:f为列联表中的诸条件频数FX为X边际分布中的诸频数 FY为Y边际分布中的诸频数n为样本单位数1.当众数很突出,且众数分布不在同一行、同一列时,用系数较好2。当众数不突出时,用系数更好3。若众数集中在某一行或某一列,一定
19、用系数六定序变量的相关分析(区分同序对、异序对、同分对)1.同序对:在观察X序列时如果我们看到XiXj,在Y序列中看到的是YiYj。则称这一配对为同序对。同序对只要求X变化方向和Y变化方向相同,并不要求其变化大小相同,同序对的总数用符号ns 表示.2。异序对:在观察X序列时如果我们看到XiYj。则称这一配对为异序对.同样,异序对只要求X变化方向和Y变化方向相反,并不要求其变化大小相同,异序对的总数用符号nd 表示3。同分对:(参考张彦课本P212页)七Gamma系数,适用于测量两对称的定序变项的相关系数。计算公式为 G=ns-ndns+nd 八定比变量的相关分析积差系数、皮尔逊相关系数或r系数
20、,计算公式为: =x-xy-yx-x2y-y2=nxy-xynx2-x2ny2-y21. r的取值在1到1之间,绝对值越大,相关程度越高;绝对值越小。相关程度越小。一般认为:0.3表示不相关;0.30.5表示低度相关;0.50.8表示高度相关。2. 积差系数不解释两变量之间的因果关系,在r公式中,变量X和Y的关系是对等的.3. R公式中的两个变量都是随机的,因而改变两者的位置并不影响r数值。八回归分析 a=y-bxb=x-xy-yx-x2b值的意义:b值得大小反映了X对Y有多大影响,b的绝对值越大,表示X对Y的影响也越大;b有正负之分,正值表示X对Y有正向影响,即X增加Y也增加,负值则是负向影
21、响,即X增加Y却减少。相关系数与回归系数的区分:首先,b的大小不限于1到1之间,而是取决于回归直线的斜率,b的单位取决于变量X和Y的测量单位;r的取值范围在1到1之间,它也没有量纲,是个纯数;其次,计算r时,公式中X和Y是对等的,即将二者位置互换,r的值不变,表明r是一种对称关系的测量;在估算b时。X与Y位置不能互换,b系数具有非对称性,只能用X预测Y,不能用Y预测X。再次,r公式中的两个变量都是随机的,而回归方程要表示因果关系,因而自变量不是随机的,只有因变量才是随机的。第七章 概率与概率分布一概率与频率区分频率是在一次试验中某一事件出现的次数与试验总数的比值。概率是某一事件所固有的性质;频
22、率是变化的每次试验可能不同,概率是稳定值不变;在一定条件下频率可以近似代替概率. 二概率分布:当随机变量(X)的取值(x1,x2,)满足了完备性和互不相容性时,其取值和概率对的集合(x1,p1)(x2,p2)。就是随机变量的概率分布。三频率分布与概率分布的原则:1. 经验分布/理论分布2. 随样本不同而不同/是先验的,具有唯一性3. 有对应的频数分布/无频率分布所对应的频数分布四概率的数学性质:1。非负性:0PA12。加法规则:PA+B=PA+PB-PAB3.乘法规则:PAB=PAPBA=PBPABPA+B为A或B发生的概率;PAB为A且B发生的概率;PAB 为B已经发生条件下A发生的概率。五
23、离数型随机变量及其概率分布如果随机变量x的所有可能的取值可以一一列举出来,即所有可能的取值为有限个,则称x为离散型随机变量.如果对x的每一个可能取值,计算其实现的概率P,我们便可得到离散型随机变量的概率分布。离散型随机变量的概率分布的表示方法有3种,即公式法、列表法和图示法。如果随机变量x的所有可能的取值不能一一列举出来,而是连续地充满某个区间,则称x为连续型随机变量。六数学期望:是反映随机变量X取值的集中趋势的理论均值,记做E(X)离散型随机变量数学期望计算公式:EX=XP七参数估计(一)点估计:根据样本数据算出一个单一的估计值,用来估计总体的参数值。特性:1。无偏性 2。有效性 3.一致性
24、(二)区间估计:指在一定的置信概率下,用样本统计值的某个范围去估计未知的总体参数。1。置信区间:我们为了增加参数被估计到的信心而在点估计两边设置的估计区间。2。置信概率:表示总体参数在置信区间内的可能性有多大。用1-表示3.显著性水平:一个置信区间未包含总体参数的概率,也即进行参数的区间估计时犯错误的概率。用 表示4.置信概率的高低反映了区间估计的可靠程度,置信区间的大小则反映了区间估计的精确程度。5。(1)已知总体方差2,大样本总体均值的置信区间为xZ2n,其中为总体标准差;n为样本规模;x为样本均值,即总体均值 的点估计;值由置信概率决定,当置信概率等于0。95时,Z2=1。96;当置信概
25、率等于0。99,Z2=2。58。 (2)未知总体方差2时,总体均值的置信区间变为xZ2sn,为了使样本方差成为总体方差的一个无偏估计值,样本方差的计算公式应为 s=xi-x2n-1八二项分布结果中包含所有排列的方式数,用xn表示,计算公式为:xn=n!x!n-x!二项实验中随机变量X的概率分布即:PX=x=xnpx1-pn-x例:社区少数民族占10,问抽6个人。其中有2个人是少数民族的概率?解:p=110 n=6 x=2 26=6!2!6-2!=654321214321 P2=26p21-q4=6!2!4!11029104九假设检验的一般步骤:1。建立虚无假设和研究假设,通常是将原假设作为虚无
26、假设;2。从所研究的总体中抽出一个随机样本;3。确定一个适当的检验统计量,并利用样本数据算出其具体数值;4.确定一个适当的显著性水平,并计算出其临界值,指定否定域;(1)第一类错误:零假设H0实际上正确,却被否定了.(2)第二类错误:零假设H0实际上错误,却没有被否定。5.计算检验统计量,将统计量的值与临界值进行比较;6.统计量的值落在否定域,拒绝H0,否则不拒绝H0。判定:1。当实验的规模很小,而作出维持原假设的问题,这可能只是数据太少,不是真的表明契合零假设2。当实验规模很大,而得到否定零假设的结果,需要进一步考虑与零假设的偏离多大3。若实验规模很大,仍能维持原假设,认为是对原假设的有力支持