1、统计学各章计算题公式及解题方法统计学各章计算题公式及解题方法第四章 数据的概括性度量1. 组距式数值型数据众数的计算:确定众数组后代入公式计算:下限公式:M0=L+11+2d;上限公式:M0=U-21+2d,其中,L为众数所在组下限,U为众数所在组上限,1为众数所在组次数与前一组次数之差,2为众数所在组次数与后一组次数之差,d为众数所在组组距2. 中位数位置的确定:未分组数据为 n+1 2;组距分组数据为 n 23. 未分组数据中位数计算公式:4. 单变量数列的中位数:先计算各组的累积次数(或累积频率)根据位置公式确定中位数所在的组对照累积次数(或累积频率)确定中位数(该公式假定中位数组的频数
2、在该组内均匀分布)5. 组距式数列的中位数计算公式: 下限公式:Me=L+n2-Sm-1fmd;上限公式:Me=U-n2+Sm+1fmd,其中,fm为中位数所在组的频数,sm-1为中位数所在组前一组的累积频数,sm+1为中位数所在组后一组的累积频数6. 四分位数位置的确定:未分组数据:下四分位数:QL=n+14上四分位数:QU=3n+14;组距分组数据:下四分位数:QL=n4上四分位数:QU=3n47. 简单均值:x=x1+x2+xnn=i=1nxin8. 加权均值:x=M1f1+M2f2+Mkfkf1+f2+fk=i=1kMifin=i=1kMifin,其中,M1,M2Mk为各组组中值9.
3、几何均值(用于计算平均发展速度):x=nx1x2xn=ni=1nxi10. 四分位差(用于衡量中位数的代表性):QD=QU-QL11. 异众比率(用于衡量众数的代表性):Vr=fi-fmfi=1-fmfi12. 极差:未分组数据:R=maxxi-minxi;组距分组数据:R=最高组上限-最低组下限13. 平均差(离散程度):未分组数据:Md=i=1nxi-xn;组距分组数据:Md=i=1kMi-xfin14. 总体方差:未分组数据:2=i=1Nxi-2N;分组数据:2=i=1kMi-2fiN15. 总体标准差:未分组数据:=i=1Nxi-2N;分组数据:=i=1kMi-2fiN16. 样本方差
4、:未分组数据:sn-12=i=1nx-x2n-1;分组数据:sn-12=i=1kMi-x2fin-117. 样本标准差:未分组数据:sn-1=i=1nx-x2n-1;分组数据:sn-1=i=1kMi-x2fin-118. 标准分数:zi=xi-xs19. 离散系数:vs= s x第七章 参数估计1. Z2的估计值:置信水平2Z290%0.10.051.65495%0.050.0251.9699%0.010.0052.582. 不同情况下总体均值的区间估计:总体分布样本量已知未知正态分布大样本(n30)xz2nxz2sn小样本(n30)xz2nxt2sn非正态分布大样本(n30)xz2nxz2s
5、n其中,t2查p448 ,查找时需查n-1的数值3. 大样本总体比例的区间估计:pz2p1-pn4. 总体方差2在1-置信水平下的置信区间为:n-1s2/222n-1s21-/225. 估计总体均值的样本量:n=Z/222E2,其中,E为估计误差6. 重复抽样或无限总体抽样条件下的样本量:n=Z/221-E2,其中为总体比例第八章 假设检验1. 总体均值的检验(2已知或2未知的大样本)总体服从正态分布,不服从正态分布的用正态分布近似假设双侧检验左侧检验右侧检验假设形式H0:=0H1:0H0:0H1:0统计量已知z=x-0n未知z=x-0sn拒绝域zz2zzP值决策P,拒绝H02. 总体均值检验
6、(2未知,小样本,总体正态分布)假设双侧检验左侧检验右侧检验假设形式H0:=0H1:0H0:0H1:0统计量已知z=x-0n未知t=x-0sn拒绝域tt2n-1ttn-1P值决策P,拒绝H0注:已知的拒绝域同大样本3. 一个总体比例的检验(两类结果,总体服从二项分布,可用正态分布近似)(其中0为假设的总体比例)假设双侧检验左侧检验右侧检验假设形式H0:=0H1:0H0:0H1:0统计量z=p-001-0n拒绝域zz2zzP值决策P,拒绝H04. 总体方差的检验(2检验)假设双侧检验左侧检验右侧检验假设形式H0:2=02H0:202H0:202H0:202统计量2=n-1s202拒绝域222n-
7、121-22n-1222n-1P值决策Pca2,拒绝H0;若c2ca2,拒绝H0;若c2ca2,不拒绝H03) 检验列联表中的行变量与列变量之间是否独立检验的步骤提出假设H0:行变量与列变量独立;H1:行变量与列变量不独立;计算检验的统计量;进行决策:根据显著性水平a和自由度(r-1)(c-1)查出临界值ca2,若c2ca2,拒绝H0;若c2ca2,不拒绝H03. j 相关系数:测度22列联表中数据相关程度;对于22 列联表,j 系数的值在01之间 =2n,其中,n为实际频数总个数,即样本容量4. 列联相关系数(C系数)用于测度大于22列联表中数据的相关程度C=22+n,其中,C 的取值范围是
8、 0C F ,则拒绝原假设H0,表明均值之间的差异是显著的,所检验的因素对观察值有显著影响iii. 若FLSD,则拒绝H0;若xi-xjt2,拒绝H0;tF,拒绝H0;Ft2,拒绝H0;tt2,不拒绝H012. 置信区间估计:Ey0在1-置信水平下的置信区间:y0t2n-2sy1n+x0-x2i=1nxi-x2 其中,sy为估计标准误差,n-2为t2的自由度13. 预测区间估计:y0在1-置信水平下的预测区间:y0t2n-2sy1+1n+x0-x2i=1nxi-x2 14. 回归分析表的结构:15. 几点说明:1) 判定系数R2测度了回归直线对观测数据的拟合程度,若所有观测点都落在直线上,残差
9、平方和SSE=0,R2=1,拟合是完全的2) 在一元线性回归中,相关系数r实际上是判定系数R2的平方根3) 相关系数r与回归系数1是同号的第十三章 时间序列预测和分析1. 环比增长率:报告期增长率与前一期水平之比减1:Gi=YiYi-1-1 (i=1,2,n)2. 定基增长率:报告期水平与某一固定时期水平之比减1Gi=YiY0-1 i=1,2,n,其中, Y0表示用于对比的固定基期的观察值3. 平均增长率:序列中各逐期环比值(也称环比发展速度) 的几何平均数减1后的结果(描述现象在整个观察期内平均增长变化的程度)G=nY1Y0Y2Y1YnYn-1-1=nYnY0-1,G表示平均增长率,n为环比
10、值的个数1) 当时间序列中的观察值出现0或负数时,不宜计算增长率2) 在有些情况下,不宜单纯就增长率论增长率,要注意增长率与绝对水平的结合分析4. 时间序列预测的步骤:1) 确定时间序列所包含的成分,也就是确定时间序列的类型2) 找出适合此类时间序列的预测方法3) 对可能的预测方法进行评估,以确定最佳预测方案4) 利用最佳预测方案进行预测5. 均方误差:通过平方消去正负号后计算的平均误差,用MSE表示MSE=i=1nYi-Fi2n,其中Yi为观测值,Fi为预测值6. 简单平均法:根据过去已有的t期观察值来预测下一期数值。设时间序列已有的其观察值为Y1,Y2,Yt,则t+1期的预测值Ft+1为:
11、Ft+1=1tY1+Y2+Yt=1ti=1tYi,有了t+1的实际值,则预测误差为:et+1=Yt+1-Ft+1t+2期的预测值为:Ft+2=1t+1Y1+Y2+Yt+Yt+1=1t+1i=1t+1Yi,7. 简单移动平均法:将最近k期的数据加以平均,作为下一期的预测值设移动间隔为k(1kt),则t期的移动平均值为:Yt=Yt-k+1+Yt-k+2+Yt-1+Ytkt+1期的预测值为:Ft+1=Yt=Yt-k+1+Yt-k+2+Yt-1+Ytk预测误差用均方误差表示:MSE=误差平方和误差个数8. 指数平滑法(一次):以一段时期的预测值与观察值的线性组合作为t+1的预测值,其预测模型为:Ft+
12、1=Yt+1-Ft,其中为平滑系数01,增长率随着时间t的增加而增加,若b0,b0,a0,00,0a1,0b12) 求解系数方法:i. 将其改写为对数形式:lgYt=lgK+lgabtii. 仿照修正指数曲线的常数确定方法,求出lga、lgK、b;取lga和lgK的反对数求得a和K令:S1=t=1mlgYt,S2=t=m+12mlgYt,S3=t=2m+13mlgYt则有:b=S3-S2S2-S11mlga=S2-S1b-1bbm-12lgK=1mS1-abbm-1b-1lga第十四章 指数1. 简单综合指数:(误差太大)Ip=p1p0(质量指标);Iq=q1q0(数量指标)2. 加权综合指数:1) 拉氏数量指标指数(同度量因素固定在基期): Iq=q1p0q0p02) 帕氏质量指标指数(同度量因素固定在报告期):Ip=q1p1q1p03. 指数体系:式中q1p1为报告期总量指标,q0p0为基期总量指标,q为数量指标,p为质量指标q1p1q0p0=q1p0q0p0q1p1q1p0 因素影响差额之间的关系:q1p1-q0p0=q1p0-q0p0+q1p1-q1p04. 居民消费价格指数:Ip=iWW,式中i代表规格品个体指数或各层的类指数,W为相应的消费支出比重5. 股票价格指数:今日股价指数=今日市价总值基日市价总值1009