统计量表汇总.doc_咨信网zixin.com.cn

资源描述

名称符号公式意义应用其他众值 Mode M0 中位值Median Md 均值Mean 离异比率Variation 质异指数（Index of qualifative variation) 检验非众数的比例 F检验 F 检验用X表示Y的准确性：解释误差/未解释误差多元回归中B是否为0 F越大越显著 sigF检验 sigF 检验F的显著水平越小越显著置信度置信度=1- T检验 t 与F检验类似，t专用二分变量多元回归中bj是否为0 T越小越显著 SigT检验 sigT 检验T的显著水平越小越显著相关系数 r 两个变量之间的相关程度越接近越显著容限度tolerance tolerance Tolerance=1- Xi作为自变量对其他自变量回归时所得到的余差比例，代表Xi与其他变量信息的重复性。 Tolerance越大，Xi与其他变量的信息重复性越小，Xi越独立，对Y的边际解释越大。>0.1 VIF VIF=1/tolerance VIF越小对Y的解释力越大，<10 四分位差（interquartile range） Q Q=Q3-Q1 标准差（standard deviation） S 表示总样本对平均量的平均的偏离量。 S越小样本越集中标准误方差（variance） S2 S2越小样本越集中正态分布（normal distribution） X以均值为中心，在左右两边以S为单位分布标准值（standard score） Z 表示X偏离的距离，以S为单位标准正态分布（standard normal distribution）标准正态分布中，S=1，=0. 尤拉Q系数（Yule's Q） Q 计算二分变量间的关系定类—定类（李书70）越大表示关系越强消减误差比例测量法（propertionate reduction in error） PRE PRE=1-E2/E1 表明用E2来表示E1所能消减的百分误差李书78 PRE越大，表明用E2表达E1的可靠性越高。系数表明用x来表示y所能消减掉的误差比例李书81定类—定类或定类—定序越大表示x的说明程度越高。系数表明用x来表示y所能消减掉的误差比例。其中x为自变量，y为依变量李书81定类—定类或定类—定序同上 Tau-Y相关系数 Tau-y 表明两个定序/定类变量之间的相关关系李书84 定类—定类或定类—定序越大相关性越高，关系越密切 Gamma系数 G 表示两个定序变量之间的相关关系李书86 定序——定序越接近正负1，相关程度越大 dy系数 dy 表示两个定序变量之间的相关关系李书88 定序——定序越接近正负1，相关程度越大皮尔逊积矩相关系数 r 表示两个定距变量之间的相关关系李书105 定距——定距越大相关性越强相关比率 Eta2 表示定类变量与定序/定类变量直接的关系定类——定序定类——定类卡方检验表示定类变量与定序/定类变量直接的关系李书183 定类——定类定类——定序卡方越大表明相互关系越强确定系数 R2 代表回归方程中变量对y的解释能力确定系数应尽量接近1 多元相关系数 R 表明y与所有x之间的多元线性相关程度 R应尽量接近1 偏确定系数表示x2对y的边际影响偏相关系数在控制的条件下，与的相关程度协方差 COV(X，Y)=E[(X-E(X))(Y-E(Y))] 考察自变量是否相互独立协方差越大，越不独立反印象相关矩阵矩阵中的值是负的偏相关系数，如果值比较大，则不适合做因子分析。 Bartlett球体分析分析是否做因子分析，应该有检验值P<0.0001 KMO测量分析是否是合作因子分析，KMO越接近于1越好，0.5以上可以接受。方差分析分析两组或两组以上的数据之间的相似程度。两组数据（x,y）将生成三个平均数：第一组数据平均a；第二组数据平均b；总数据平均c。因此得到三组离差：总离差，组内离差，以及组间离差虚拟变量当一个变量X，共有N（比如是5）个值，例如，民族为汉、蒙、回、满、藏时，不能够将之变成定序变量，而且在统计中出现的非整数无法解释（如，3.5究竟表示五个变量之间怎样的比例，就完全无法解释了）。因此必须将有五个值的一个变量变成五个不同的变量，分别为汉族=0/1，蒙古族=0/1，回族=0/1，满族=0/1，藏族=0/1，虽然变量的数目变多了，但是关系变清晰了。但五个虚拟变量其实没有必要，因为不存在五个变量，即X1——X5都为0的情况。所以删去其中任何一个变量，只留下N-1个变量，当四个变量都为0时，第五个必为1。 ***虚拟变量必为0/1变量！抽样分布标准误二项分布标准误 Standard normal distribution Z=x对应的值表示当Z=x时对应的的0—x之间的总面积的大小S, 基本公式：（1）旧闻梳理： 1，泊松分布：， k为正整数；标准正态分布概率：正态分布概率为：，正态分布的可加性： e ：（) 泊松公式：当n很大，p很小时，有 Gamma函数： Gamma分布：当f(y)的概率密度满足如下公式时，即为Gamma分布：，其中有 Gamma分布依据k值的不同，曲线如右。 2，卡方分布：对于独立的标准正态分布函数X，函数Z=满足分布，且有，其中X~N(0,1) 卡方分布的密度函数为。卡方分布的数学期望与方差为：，其中，有当n足够大时，有卡方分布的可加性， 3，t检验需要考虑自由度df，而Z检验不需要，因为z检验时的标准误中的是总体参数，与sample大小n无关。而 T检验中的s是样本参数，与sample大小有关。 4，X的n次方期望就是密度函数乘x^n积分！！！因为x的分布不随其n次方改变，因而密度函数不变，只是x增大而已。 5，t分布的方差为v/(v-2),v为自由度（通常v=n-1),其期望为0，具体证明：卡方分布的方差很好计算因为自由度为N的卡方分布其实是系数为N/2,1/2的Gamma分布而Gamma函数的性质让我们很容易计算出X的任何阶期望具体方法是: X的n次方期望就是密度函数乘x^n积分这时你把x^n放进密度函数你的积分函数里面就得到x的N/2-1+n次方也就是说系数从N/2变成了N/2+n 同样你把分式下面的Gamma函数和1/2^(N/2)提到积分外部然后添加需要的系数(使得该式变为系数为N/2+n和1/2的Gamma分布对1积分为一)然后除以你添加的系数最后积分外部的所有系数就是你的x^n的期望了. 设X服从N(0,1)Z服从自由度为N的卡方分布 X和Z独立那么D(T)=E(T^2)-E(T)^2 其中E(T)=E(X/sqrt(Z/N))=E(X)*E(1/sqrt(Z/N))=0 所以D(T)=E(T^2)=E(X^2/(Z/N))=E(X^2)*E(N/Z)=N*E(X^2)*E(1/Z) 其中E(X^2)=1 E(1/Z)=1/(N-2) (通过密度函数计算同第一题卡方分布的1/2次方期望可以很容易求出) 所以D(T)=N/(N-2) 6,t 分布的概率密度函数为： , t函数不是正态分布，但当n趋近于无穷大时，可有：，即接近于标准正态分布。 T分布的表达式为：，其中X~N(0,1),Y~ 7，F分布的概率函数为： F的定义函数为，其中U与V分别为卡方分布，即为，，即F分布可以用来描述两个分布的比。有：当F~F()，必有1/F~F（)。表示，在n确定的情况下，F点右方曲线所封闭的面积为1-α。因此，F函数有两个自由度， 8，Z、T、、F、的一些定理。（1），正态总体为N（），样本为X，为样本均值，有~N（），则有以下定理：定理A：，且与S相互独立。（证明需用到矩阵，见《概率论与数理统计》P146）定理B：。（证明见《概率论与数理统计》P143） (2），，相互独立，其均值分别为与，方差为S1与S2，则有：，且当==时，有。其中，有证明，由N函数与函数的可加性可知，有：，因而有U=。有V=~。则有~t(n1+n2-2)。即为 9，样本均值的方差=总体方差/n的证明（即标准误的证明）标准误（standard error)=。因此有 10，对比分布中效应量ES的证明：ES表示表示，是实验组值与对照组值的差，比上对照组的标准差。表示的是实验组与对照组之间，不受样本大小影响的标准间距，（或者说是实验组与对照组之间的总体标准间距）。ES没有具体的统计意义，也不实际存在，其值为。因为ES本身不受样本大小的影响，因而可以自由在不同大小的样本中进行变换，是一个总体恒量。此时的对照组总体的标准差满足Z分布的可加性，有，选取样本之后的样本总量（DF）为，其标准误为，这里用到了样本标准误，之所以是n-1而不是n，是因为为保证样本均值为μ，已经去掉了一个自由度。因而有：ES==== 11，证明秩和检验的均值和方差：秩和检验中在数一组有n1个，二组有n2个，则有这些数的分布为1至（n1+n2）。现在检验数组I的秩和的均值和方差，得到，其秩的和分布于，且是一个等差数列，等差为1（即自然数列）。则有其均值为：其方差为 { -}/()-= 12，Dependent sample t test 方法(关联样本t检验）： A，将相互对应的个体一一对应，求出其差值为D（difference scores）； B，求出D的平均值MD，其理论值为。 C，求出D的方差为SD2，其标准误为 D，构建t函数，t值为：，其自由度为 13，构建Wilcoxon Tm 检验的方法 A，将相互对应的个体一一对应，求出差值D，并根据D的绝对值|D|开始排行，由1开始，直到最大；其中为0者全部去掉，不参与排序。由此得到的即为Rank值，Rank的最大值为np； B，根据D的正、负将Rank分为R+与R—，任何一组都可以用作计算。 C，任何一组中，有其均值为，其标准差为， D，构建Tm检验的z函数，得到。 14，两样本对比方差的方法 A，对两样本分别求方差，为与，两样本大小分别为n1与n2； B，求F值为：,自由度为（n1，n2）； C，求对应自由度与α的F值，如果所求F在其右方，为拒绝域，左方为接受域。与其他分部不同，F分部的中心值是1，即两个方差相同。F值越大越右偏，一般只计算F大于1的状态。 15，多样本的方差对比与ANOVA 一、多样本的方差对比。接下来可以用F分布的方法来测量F值，确定是否可以接受MSB=MSW，从而是否能接受各样本方差一致。二、多样本中任何两个样本均值的对比——protected t test。 Protected t test 只有在H0被推翻在之后才能使用，目的是找出导致H0失败的那个异己项。为验证任何两个样本之间的均值是否一致，将构造t函数。此时：，且有三、关联抽样的ANOVA 四、多样本方差对比中的Kruskal-Wallis H检验:非参数分析 for independent samples Kruskal-Wallis H检验是秩和检验的升级。秩和检验只用来检验均值而此时可以用来检验方差。首先按照秩和检验的方法将数据排序，得到由得到的H值进行对比，若在点右侧即为拒绝，表明方差不统一，总体间有差异。五、多样本方差对比中的Friedman Fr 检验：非参数分析 for dependent samples Friedman Fr非参数检验的目的在于对每一块，即每一个可比较的实验组单独列秩，从而保证检验的合理性。 16，二因素实验的方差分析二因素实验中的方差分析应对每一个因素而存在。二因素中，一个因素由行表示，一个由列表示，因而产生五个方差或离散分布：总方差SST,行方差SSR，列方差SSC，以及行列方差SSRC和组内方差SSSW。其中组内方差又是胞内方差，因为n个行与k个列共同产生了n*k个细胞。（参见dataP431）有：二因素方差之中的t检验与之前相同，不同的是，n为每一个细胞内的个体数。 17，回归分析中的t检验，有相关方差,其中，且有标准误，则可构建t函数为：，以确定是否为0. 18，回归中的correlation分析，有，即为皮尔逊集聚；其显著性由t检验可测，有：，其中在进行非参数分析时，用到斯皮尔曼rs分析，分别对Y与X定秩，求RY-RX的差为D，得到：，

展开阅读全文