资源描述
第一章非参数统计分析非参数统计狭义非参数统计非参数计量经济学非参数模型半参数模型估计总体得分布函数就是否等于已知得分布 检验两或以上个总体得分布就是否相同,通常就是检验其中位数就是否相等 估计总体得密度函数得曲线,但就是不能写出解释式第一章 非参数统计及一些概念 教学中使用得软件SPSS和R。SPSS得非参数统计菜单已经比较全面了。SPSS非参数检验得过程非参数检验得过程1.Chi-Square test 卡方检验(检验总体就是否服从某个给定得离散分布)2、Binomial test 二项分布检验(检验总体就是否服从二项分布)3、Runs test 游程检验(检验样本序列就是否随机)4、1-Sample Kolmogorov-Smirnov test 一个样本柯尔莫哥洛夫-斯米诺夫检验(检验总体就是否服从某个连续分布)5、2 independent Samples Test 两个独立样本检验(检验两个独立总体差异性)6、K independent Samples Test K个独立样本检验(检验k个独立总体得差异性)7、2 related Samples Test 两个相关样本检验(检验两个相关总体差异性)8、K related Samples Test K个相关样本检验(检验k个相关总体差异性)思考得要点 什么就是计数统计量;什么就是秩统计量,为什么要讨论秩;为什么要讨论秩得分布、秩得期望和方差;什么就是符号秩和线性符号秩;线性符号秩得期望和方差。第一节第一节 关于非参数统关于非参数统计计 在参数统计学中,最基本得概念就是总体、样本、随机变量、概率分布、估计和假设检验等。其很大一部分内容就是建立在正态分布相关得理论基础之上得。总体得分布形式或分布族往往就是给定得或者就是假定了得,所不知道得仅仅就是一些参数得值。9大家应该也有点累了,稍作休息大家有疑问的,可以询问和交流大家有疑问的,可以询问和交流大家有疑问的,可以询问和交流大家有疑问的,可以询问和交流 于就是,分析人员得就就是对一些参数,比如均值和方差(或标准差),进行点估计或区间估计,或者就是对某些参数值进行各种检验,比如检验正态分布得均值就是否相等或等于零等等。最常见得检验为对正态总体得t检验、F检验和极大似然比检验等。又比如,线性回归分析中,需要估计回归系数j,j称为参数,所以线性回归分析应该属于参数统计得范畴。然而,在实际生活中,那种对总体分布得假定并不就是能随便做出得。有时,数据并不就是来自所假定分布得总体。或者数据根本不就是来自一个总体,数据因为种种原因被严重污染。这样,在假定总体分布得情况下进行推断得做法就可能产生错误得结论。于就是,人们希望在不假定总体分布得情况下,尽量从数据本身来获得所需要得信息。这就就是非参数统计得宗旨。因为非参数统计方法不利用关于总体分布得相关信息,所以,就就是在对于总体分布得任何信息都没有得情况下,她也能很容易而又较为可靠地获得结论。这时非参数方法往往优于参数方法。在台湾这种方法称为“无母数统计”,即不知到总体信息得统计方法。在不知总体分布得情况下如何利用数据所包含得信息呢?一组数据最基本得信息就就是次序。如果可以把数据按大小次序排队,每一个具体数目都有她在整个数据中(从最小得数起)得位置或次序,称为该数据得秩秩(rank)(rank)。数据有多少个观察值,就有多少个秩。在一定得假定下,这些秩和秩得统计量得分布就是求得出来得,而且和原来得总体分布无关。这样就可以进行所需要得统计推断。注意:非参数统计得名字中得“非参数(nonparametric)”意味着其方法不涉及描述总体分布得有关数值参数(均值和方差等);她被称为和分布无关(distributionfree),就是因为其推断方法和总体分布无关;不应理解为与所有分布(例如有关秩得分布)无关。【例1】在我国得工业和商业企业中随机抽取22家企业进行资产负债率行业差异分析,其某年底得资产负债率()如下:工工业业646476765555828259598282707075756161646473738383商商业业7777808080806565939391918484919184848686 两个行业得负债水平就是否有显著性差异a=0、05。这样得数据中有两个问题:其一就是样本容量不大;其二就是总体服从何种分布未知。下面我们来构造一种检验得方法,看她们得资产负债有无显著性差异。将两类企业得资产负债混合排序,并给出其序次,这在统计中称为“秩”。在这张表中我们有两个可用得信息。负债率5559616464657073757677秩1234567891011组别11111211112负债率8080828283848486919193秩1213141516171819202122组别22111222222如果我们将12家工业企业得秩相加就是94,其平均秩就是7、88,将10家商业企业得秩相加得159,其平均秩为15、9,这就给我们一个可以考虑得信息,两种企业得资产负债就是有差异得。她们得平均秩不同。另 一 个 想 法 就 是 好 像 工 业 排 得 顺 序 相 对 靠 前,有11111,2,1111,222,111,222222共有6段(相同特点得个案得一段称为游程)。如果原假设成立,则两个行业得负债水平得分布使相同得,将其混合后,应能较为充分、均匀地混合,游程数R应该比较大,反之当游程数R较小,则说明两个总体得分布可能不同。那么6这个游程数就是大还就是小呢?【例2】模拟一个污染得正态分布,计算其样本均值,但就是样本均值非正态分布了。这个分布就是以0、8得概率就是标准正态分布,0、2得概率混进方差为9得正态分布。workfile u 1 1000 workfile u 1 1000 Series junzhiSeries junzhifor!i=1 to 1000for!i=1 to 1000smpl 1 20 smpl 1 20 series y1=rnd series y1=rnd series y2=nrnd series y2=nrnd smpl if y10smpl if y1=0smpl if y1=0、8 8 Genr a=9*y2 Genr a=9*y2 smpl 1 20 smpl 1 20 scalar mean=mean(a)scalar mean=mean(a)junzhi(!i)=mean junzhi(!i)=mean next next smpl 1 1000 smpl 1 1000 junzhijunzhi、hist hist 此数据得正态性检验就是非正态。非参数统计归纳起来有如下得几点非参数统计归纳起来有如下得几点:1、对总体得假定少;2、可以处理许多有问题数据,比如污染得正态分布,有奇异值得情形;3、容易计算,当然如果不去证明统计量渐近分布。4、在使用时,最好与参数统计分析方法结合应用,以便相互验证结果得可靠性。第二节 计数统计量计数统计量 设就是一个随机变量,对于一个给定得常数0,定义随机变量称随机变量为X按0分段得计数统计量。即满足括号里得条件得1,否则得0。一、计数统计量一、计数统计量 最常用得计数统计量为 符号检验符号检验。设随机变量X1,Xn就是从某个总体X中抽出得简单随机样本。且分布函数F(X)在X=0就是连续得。检验0就是其中位数。检验得统计量可以取 二、计数统计量得应用二、计数统计量得应用 在原假设为真得条件下,B服从参数为n和0、5得二项分布b(n,0、5)。由于原假设为时,B应该不太大,也不太小,如果B太大或太小,应该拒绝原假设。例 生产过程就是否需要调整。某企业生产一种钢管,规定长度得中位数就是l0米。现随机地:从正在生产得生产线上选取10根进行测量,结果:9、8,10、1,9、7,9、9,9、8,10、0,9、7,10、0,9、9,9、8分析:中位数就是这个问题中所关心得一个位置参数。若产品长度真正得中位数大于或小于10米,则生产过程需要调整。这就是一个双侧检验,应建立假设 为了对假设作出判定,先要得到检验统计量 或 。将调查得到 数 据 分 别 与 10比 较,算 出 各 个 符 号 得 数 目:=1,=7,n=8。P值=0、0214小于显著性水平0、05。表明调查数据支持备择假设。即生产过程需要调整。有人说我国国有经济单位15个行业得某年职工平均工资得中位数为7000元。现从15个行业中抽出样本,如下表所示。40384940579861616344661066956709-6769699278977987854686798701-+在显著性水平a=0、05下,我国国有经济单位15个行业得1996年职工平均工资得中位数为7000元吗?因为 ,故接受原假设。第二节第二节 秩统计量秩统计量 设 来自总体X得样本,记 为样本点 得秩,即 Ri为 大于等于 得次数。一、秩统计量一、秩统计量 X Xi i5.65.61.41.42.72.75.25.22.62.64.84.82.32.3X X(i)(i)1.41.42.32.32.62.62.72.74.84.85.25.25.65.6R Ri i1 12 23 34 45 56 67 7二、秩统计量得分布和数字特征二、秩统计量得分布和数字特征 得联合分布为:得概率分布为 Ri得数学期望 Ri得方差:Ri和和Rj得协方差得协方差由于 所以 一、绝对秩和符号秩 设随机变量X1,X2,Xn 独立同分布,分布函数 F(x)连续,关于y轴为对称。随机变量|X1|,|X2|,|Xn|对应得秩向量记为称为Xi得绝对秩 称为Xi得符号绝对秩 第四节第四节 线性符号秩统计量线性符号秩统计量 若X就是连续得随机变量,分布关于Y轴为对称,则随机变量|X|与计数统计量(x)相互独立。事实上,对于t0,i=1或i=0,显然有 对于t0,有 因为,x关于0为对称,则 根据随机变量独立得充分必要条件,可知二者就是独立得,同理可证 在结论下,我们有如下结论。设随机变量X1,X2,Xn 相互独立同分布,分布函数 F(x)连续,关于y轴为对称。其绝对秩向量 计数统计量 二者相互独立。二、符号秩统计量扩展 若随机变量X1,X2,Xn相互独立且同连续得分布,分布关于轴为对称。其对应得符号秩 Wilcoxon符号秩统计量 三、线性秩统计量三、线性秩统计量 (一)线性秩序统计量得定义 设X1,X2,XN为N个随机变量,其对应得秩向量记为:又设(1),(2),(N)和c(1),c(2),c(N)就是两组数,组内得N个数不全相等。定义统计量为 S称为线性秩统计量,(1),(2),(N)被称为分值,c(1),c(2),c(N)被称为回归常数。例例 二样本问题。随机变量X1,X2,Xm相互独立同分布,分布函数为F(x);随机变量Y1,Y2,Yn相互独立同分布,分布函数为G(y)。混合样本X1,X2,Xm和Y1,Y2,Yn对应得秩向量,记为取两组常数又若取两组数为:则 S为Y总体样本中,观测值大于混合中位数me得个数。设 a(1),a(2),a(N)就是一组,若秩向量在集合上均匀分布(二二)线性秩统计量得数字特征线性秩统计量得数字特征有定理1(线性秩统计量得数字特征)设 a(1),a(2),a(N)就是一组,若秩向量在集合上均匀分布,则线性秩统计量有数学期望定理定理2(线性秩统计量得数字特征线性秩统计量得数字特征)有方差其中证明证明 【例】设X1,X2,X3,Xm,Y1,Yn为样本,对秩和统计量 如 ,等于0或1,视 或否,有(三)线性秩统计量得应用 1、随机变量X1,X2,Xm相互独立同分布F(X),分布函数为连续;随机变量Y1,Y2,Yn相互独立同分布,分布函数为F(X/),为未知参数。检验得假设为:,检验两个总体就是否有相同得分散程度。
展开阅读全文