1、单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,本章结构,统计学的概念,统计学工作步骤,统计学中的几个基本概念,科研中资料的类型,统计学的概念,什么是统计学?,statistics state,感悟统计,国家统计局公布,2004年全国GDP增长9%;,国家气象局预报,明天北京天气阴,降水概率40%。,2003年,北京市人平寿命77.93岁,婴儿死亡率为5.56,儿童计划免疫接种率98%.这些主要健康指标已接近或超过中等发达国家的水平.,北京日报.京报网,2003年11月20,怎样学习社会统计学,1.重在理解基本的统计原理,各种统计方法的基本概念,掌握适用
2、范围和注意事项;学习过程中必须注意联系实际、结合专业;,2.对于书中所引用的统计公式,只要求了解其意义及使用方法,,不必,深究其数理推导。充分利用计算工具,始终把注意力放在统计公式的理解,正确选择及结果分析上。,统计学工作的基本步骤,设计,资料搜集,整理,分析,调查设计,实验设计,资料来源,质量控制,审核,合理分组,统计描述,统计推断,社会统计学中的几个基本概念,总体样本,总体,population,是根据,研究目的,确定的,同质,的研究对象的全体。是性质相同的所有观察单位某种变量值的集合。,例如:某地2010年成年人的平均收入,有限总体,finite population,明确了时间、空间范
3、围内有限个观察单位的总体。,无限总体,infinite population,总体是抽象的、设想的,无时间和空间范围的限制。被观察的个体数在理论上存在。,例如 :研究用某项政策对农民收入的影响,总体中个体数目有限,总体中个体数目无限多,样本,sample,是指从总体中,随机抽取,的有代表性的一部分。,特点:代表性,随机性,可靠性,可比性,population and sample,同质-变异,同质,homogeneity,指事物的性质、影响条件或背景相同或非常相近。,(条件相同,性质相似的个体),变异,variation,在同质的条件下,就同一观察条件说,各观察单位表现出来的,数量间,存在着差
4、异,这种客观存在的差异性为变异。通常来源于一些未加控制或无法控制的甚至不明原因的因素。,参数-统计量,参数,parameter,把总体的指标称为参数。用希腊字母表示。,统计量statistics,由样本算得的相应的指标为统计量。用拉丁字母表示。,希腊字母,序 号 大 写 小 写 英文注音 国际音标注音,1,alpha a:lfa,2,beta beta,3,gamma ga:m,4,delta delta,5,epsilon epsilon,6,zeta zeta,7,eta eta,8,theta ita,序 号 大 写 小 写 英文注音 国际音标注音,9,iot jot,10,kappa
5、kap,11,lambda lamda,12,mu mju,13,nu nju,14,xi ksi,15,omicron omikron,16,pi pai,序 号 大 写 小 写 英文注音 国际音标注音,17,rho rou,18,sigma sigma,19,tau to:,20,upsilon jupsilon,21,phi fai,22,chi khi,23,psi psai,24,omega omiga,拉丁字母,今天的拉丁字母表(共26个),Aa Bb Cc Dd Ee Ff Gg,Hh Ii Jj Kk Ll Mm Nn,Oo Pp Qq Rr Ss Tt,Uu Vv Ww Xx
6、 Yy Zz,总体,样本,Sampling,统计量,参 数,inference,随机抽样抽样误差,随机抽样,random,sampling,为了保证样本的,可靠性,和,代表性,,需要采用随机化的抽样方法(在总体中每个个体具有,相同的机会,被抽到)。,抽样误差,sampling error,由抽样引起的样本特征值与总体参数之间、样本特征值与样本特征值之间的差异。在抽样研究中是无法避免的,但可通过增加样本r容量和随机分组加以控制。,变量-随机变量,变量,Variable,可以测量的任何特征或属性(不同个体结果可能不同),能表现观察单位变异性的某种特征,。,随机变量,random variable,
7、在概率论中称变量为随机变量。指取值事先不能确定的结果。从理论上讲,每个随机变量的取值服从特定的概率分布。,Example,为研究1998年某地7岁男孩的身高情况。假如该地在1998年的7岁男孩有10万人,则最直接的方法就是普查:调查这10万个儿童,测量他们的身高,然后进行统计分析。但是工作量非常大。我们可以通过,随机抽样,调查了解7岁男孩的身高情况。如调查200个儿童,测量他们的身高,通过分析这200个儿童的身高推断该地10万个7岁男孩身高情况。,频率-概率,频率,frequency,在相同的条件下,独立重复n次试验,随机事件A出现 f 次,则称f/n为随机事件A出现的频率。,频率的大小反映了
8、事件A发生的频繁程度,频率大,则事件A发生就频繁,这意味着A在一次试验中发生的可能性就大。,概率,probability,抛一枚硬币,是否国徽面一定向上?明天是否会下雨?某患者痊愈的可能性?,俗称可能性,它是用于描述一个随机事件发生的可能性大小的数值,常用P来表示。也可理解为频率的稳定值。是描述某一随机事件发生的可能性大小的一个度量。随机事件的概率介于0与1之间。,历史上许多名家的抛掷硬币试验结果,试验者 抛掷次数,(n),出现正面次数,(k),频率,(k/n),De Morgan 2,048 1,061 0.518,Buffon,4,040 2,048 0.5069,Pearson 12,0
9、00 6,019 0.5016,Pearson 24,000 12,012 0.5005,出生婴儿数,5 10 25 50 100 500,男婴儿数,2 6 13 24 49 253,频率,0.40 0.60 0.32 0.48 0.49 0.506,必然事件,P,=1,随机事件 0,P,1,不可能事件,P,=0,P,0.05(5),或,P,0.01(1),称为,小概率事件,(习惯),统计学上认为不大可能发生。,小概率事件,Certain,Impossible,0.5,0,1,误差,观测值(observed value)与真实值之差,以及样本指标与总体指标之差。,误差,抽样误差,随机测量误差,
10、系统误差,计量资料,计数资料,等级资料,社会统计资料的类型,资料类型不同,统计方法不同,计量资料,measurement data,对每个观察单位的某项指标用定量的方法,通过测量得到的数值,一般有度量衡单位。,如:身高(cm)、体重(kg)等值,2.35,4.21,3.32,5.35,4.17,4.13,2.78,4.26,3.58,4.34,4.84,4.41,4.78,3.95,3.92,3.58,3.66,4.28,3.26,3.50,2.70,4.61,4.75,2.91,3.91,4.59,4.19,2.68,4.52,4.91,3.18,3.68,4.83,3.87,3.95,3.
11、91,4.15,4.55,4.80,3.41,4.12,3.95,5.08,4.53,3.92,3.58,5.35,3.84,3.60,3.51,4.06,3.07,3.55,4.23,3.57,4.83,3.52,3.84,4.50,3.96,4.50,3.27,4.52,3.19,4.59,3.75,3.98,4.13,4.26,3.63,3.87,5.71,3.30,4.73,4.17,5.13,3.78,4.57,3.80,3.93,3.78,3.99,4.48,4.28,4.06,5.26,5.25,3.98,5.03,3.51,3.86,3.02,3.70,4.33,3.29,3.
12、25,4.15,4.36,4.95,3.00,3.26,某单位2009年110名成年女性职工对工厂设施的满意度调查,计数资料,enumeration data,将观察单位按某种属性或类别分组,然后清点所得各组的观察单位数。没有度量衡单位,通过枚举或记数得来。,多项分类:人群学历分布:小学、初中、高中、大中专,二分类:性别:男、女,性别,人数,男性,20,女性,30,2003级英本专业1-2班人数,学历,人数,小学,49,初中,41,高中,32,大中专,10,某人群学历分布,等级资料,ranked data,将观察单位按某种属性的,不同程度,分组,所得各组的观察单位数。,如学业成绩:优、良、中、及格、不及格,