重庆大学研究生数理统计总复习.ppt

资源描述

概率论基本知识点概率论基本知识点重庆大学数统学院重庆大学数统学院李寒宇李寒宇24078395124078395113594230969135942309695、概率的运算性质：、概率的运算性质：1）不可能事件概率为零，即：）不可能事件概率为零，即：；2）有限可加性：）有限可加性：互斥互斥,3）设）设A为任一随机事件，则：为任一随机事件，则：；4）设）设A，B为任意两个随机事件，为任意两个随机事件，则：则：当当时时，；5）单调性：若）单调性：若，则，则；6）；1、分布函数：定义：设X为随机变量，为任意实数，称函数 R 为随机变量X的分布函数。性质：性质：1 1）单调不减性：即）单调不减性：即当时，当时，有有；2 2）；3 3）是右连续函数，即对于任意是右连续函数，即对于任意的的x x，有，有；2、分布列：定义：设随机变量X的所有可能取值为且则称此数列为离散型随机变量的分布列。性质性质1 1：性质性质2 2：性质性质3 3：分布列与分布函数之间的关系分布列与分布函数之间的关系3、密度函数：定义：如果存在一个非负可积函数，对任意实数x，有则称X为连续型随机变量，称为X 的分布密度或密度函数。性质性质1 1：性质性质2 2：性质性质3 3：4、常见分布：1)1)二项分布二项分布：X的分布律：线性可加性：若线性可加性：若，且相互独立，则：且相互独立，则：2）PoissonPoisson分布分布X XP()：4 4）均匀分布均匀分布X XUa,bUa,b：5 5）指数分布指数分布X X()：6 6）正态分布正态分布X XN(,)：2正态分布密度函数曲线正态分布密度函数曲线6.16.1）标准）标准正态分布正态分布X XN(0,1)：1、二维随机变量及其推广：、二维随机变量及其推广：四、二维随机变量1 1）二维随机变量的分布函数：）二维随机变量的分布函数：2 2）二维离散型随机变量的联合分布列）二维离散型随机变量的联合分布列：显然：显然：称：为为X X 的边缘分布列；的边缘分布列；为为Y Y 的边缘分布列；的边缘分布列；3 3）二维连续型随机变量的联合密度函数：）二维连续型随机变量的联合密度函数：为为X X 的边缘密度函数；的边缘密度函数；为为Y Y 的边缘密度函数；的边缘密度函数；4）二维随机变量的独立性：若对于任意的若对于任意的x,yx,y，满足如下关系：，满足如下关系：则可称随机变量则可称随机变量X X 与与Y Y 相互独立。相互独立。判断独立性：判断独立性：五、随机变量的数字特征：五、随机变量的数字特征：1、一维随机变量的数学期望：设离散型随机变量设离散型随机变量X X 的分布列为：的分布列为：如果级数如果级数收敛，则称级数：收敛，则称级数：为离散型随机变量为离散型随机变量X X 的数学期望。的数学期望。函数变换的数学期望函数变换的数学期望：设连续型随机变量X 的密度函数为 ,若若收敛，则称：收敛，则称：为连续型随机变量为连续型随机变量X X 的数学期望的数学期望。X X X X是离散型是离散型是离散型是离散型:X X X X是连续型是连续型是连续型是连续型,其密度函数是其密度函数是其密度函数是其密度函数是 :一般用如下公式一般用如下公式一般用如下公式一般用如下公式:2 2、方差方差:3、数学期望和方差的性质：1 1）c c为常数，则为常数，则，；2 2），3 3），4 4）若）若X X与与Y Y独立，则：独立，则：常用分布的数字特征常用分布的数字特征4 4、二维随机变量的数学期望：（、二维随机变量的数学期望：（EXEX，EYEY）离散型离散型离散型离散型连续型连续型连续型连续型一般地一般地一般地一般地协方差、相关系数和矩：（1 1）X X 和和Y Y 协方差：协方差：协方差和相关系数的性质协方差和相关系数的性质协方差和相关系数的性质协方差和相关系数的性质:（2 2）X X 和和Y Y 相关系数：相关系数：（3 3）矩矩:称为称为X X 的的k k 阶原点矩；阶原点矩；称为称为X X 的的k k 阶中心矩；阶中心矩；称为称为X,YX,Y 的的k+lk+l 阶原点矩；阶原点矩；称为称为X,YX,Y 的的k+lk+l阶中心混合矩；阶中心混合矩；统统计计概概念念重庆大学数统学院重庆大学数统学院李寒宇李寒宇24078395124078395113594230969135942309696 6、样本分布的计算、样本分布的计算1)、设总体X 的分布函数为 ,X1,X n 是来自总体X 的样本，则该样本的联合分布函数为：2)2)、若总体若总体X X 是连续型随机变量，且具有密度是连续型随机变量，且具有密度函数函数 ,则样本（则样本（X X1 1,X X n n）的联合密度）的联合密度函数为函数为，也称为概率分布。，也称为概率分布。3)、当总体X 是离散型随机变量，且具有分布列时，记：记：*故任意样本故任意样本(X X1 1,X X n n)的概率分布统一为：的概率分布统一为：则样本（则样本（X X1 1,X X n n）的联合密度函数也为：）的联合密度函数也为：1）定义：设X1,X n为总体X 的一个样本，为关于n维变量的连续函数，且该函数中不含任何未知参数(取定值时)，则称为统计量，很明显，统计量是一个随机变量。7、统计量统计量 2）常用的统计量）常用的统计量：样本均值：样本均值：样本方差：样本方差：样本样本k 阶原点矩：阶原点矩：样本样本k 阶中心矩：阶中心矩：样本标准差：样本标准差：显然：显然：3）样本均值有如下性质：(1):(2):若总体的均值、方差存在，且若总体的均值、方差存在，且，则，则(3):当当n时，时，。4）样本方差S2的性质：(1)如果如果存在，则：存在，则：(2)对任意实数对任意实数a，有：，有：三、顺序统计量、经验分布函数三、顺序统计量、经验分布函数和直方图和直方图定义：设(X1,X n)为总体X 的样本，是样本观测值，将样本值从小到大排列：。定义随机变量的取值为，则称为的顺序统计量，且称为最小统计量，为最大统计量。1、顺序统计量顺序统计量第第k个顺序统计量个顺序统计量设是总体X 的分布函数，为总体X的密度函数，则：2、最小最大统计量的分布：1)最大统计量最大统计量的分布为：的分布为：2)最小统计量最小统计量的分布为：的分布为：3、经验分布函数：定义：设为总体X 的样本的观测值，将这些值按大小排序为：，并对任意实数x，记则称则称为总体为总体X X 的经验分布函数。的经验分布函数。思想思想：利用样本中样品的频率估计总体的概率利用样本中样品的频率估计总体的概率描述连续性随机变量的密度函数曲线，当样本容量较大（n85）时，能够很好的近似总体的密度函数曲线。4、直方图：直方图方法步骤：直方图方法步骤：直方图方法步骤：直方图方法步骤：直方图结果：直方图结果：2、正态总体下一些几个重要的抽样分布、正态总体下一些几个重要的抽样分布1 1）卡方分布：卡方分布：(1)定义：设定义：设为为n个独立同分布个独立同分布于于的随机变量，记的随机变量，记，则称，则称服从参数为服从参数为n的卡方分布，的卡方分布，记为：记为：四、抽样分布四、抽样分布(4)性质：性质：设设，则，则，；线性可加性：设线性可加性：设，且，且随机变量随机变量和和相互独立，相互独立，则：则：；设设，则，则；(3)(3)密度函数曲线密度函数曲线:2）t 分布：(1)定义：设，且X，Y 相互独立，记：，则称T 服从自由度为 n的t分布，记为：。(4)性质：性质：当当n1时时,ETET 0,密度函数曲线密度函数曲线关于关于y轴对称轴对称。当当n2时时,。当当n=1时时,密度函数密度函数:当当n时时,。即当。即当n充分大时充分大时(45)，随机变量，随机变量T T 近似服从标准正态分布。近似服从标准正态分布。(3)密度函数曲线：密度函数曲线：(1)定义：设，且X 与Y 相互独立，记：，则称F 服从自由度为m与n的F 分布，记为：3 3）F 分布分布：(4)性质：性质：当当时，则时，则；当当，则，则；(3)密度函数曲线：密度函数曲线：例4、设独立同分布于，令，求：求：1)参数参数a,b,使使服从服从分布，并求其分布，并求其自由度；自由度；2)参数参数c,使使服从服从t t 分布，并求其分布，并求其自由度；自由度；3)参数参数d，使得，使得服从服从F F 分布，并求其分布，并求其自由度；自由度；3 3、抽样分布定理：、抽样分布定理：定理定理1 设总体，X1,X n为总体X 的样本，分别为样本均值和样本方差，则：1），；2）；3）相互独立。相互独立。推论1：设来自于正态总体，则：推论推论2：设X1,X mm mmm，Y1,Y n 分别来自正态总体和，并且两组样本相互独立，则：正态总体为基础正态总体为基础4、分位数定义：设X 为一随机变量，分布函数为F(x)，给定概率p，存在，使得满足:称为p-分位数。设设X X 的密度函数为的密度函数为f f (x)，如图所示，分位数，如图所示，分位数表示刻度以左的一块阴影面积为表示刻度以左的一块阴影面积为p。常见的分位数：1、标准正态分布：、标准正态分布：u-分位数，记为分位数，记为；性质：性质：概率概率pu u-分位数查表分位数查表2、t t 分布：分布：t-分位数，记为分位数，记为；概率概率p性质：性质：当当n 45时，时，；3、分布：-分位数，记为；4、F分布：分布：F-分位数，记为分位数，记为；性质：性质：1）当）当n 45时，时，；2）.3）参参数数估估计计重庆大学数统学院重庆大学数统学院李寒宇李寒宇2407839512407839511359423096913594230969 原理:样本的k阶原点距去估计相应总体的k阶原点距.定理：在n时，有：即：样本k 阶原点矩依概率p 收敛于总体k 阶原点矩。二、矩估计法总体X 具有密度函数，其中参数未知。如果总体的k 阶矩E(X k)存在，计算公式为：显然E(X k)是参数的函数，记为。这样就构建了关于的方程,求解获得估计值.总体的总体的k 阶原点矩阶原点矩E(X Xk)存在存在设设X X1 1,X Xn n是来自总体是来自总体X X 的样本的样本，则，则样本样本k k 阶阶原点原点矩矩M Mk k易求易求。矩估计方法的步骤：(1)求出未知参数与总体矩的关系式：(2)当n充分大时，令：(3)求解以上m个方程组得到的解，记为：,称为1,n的矩估计值。观测值换成样本即为矩估计量.通常情况，由于总体分布的参数不超过两个,参数和2的矩估计量：记=E(X ),2=DX(它们是未知的),因为：E(X 2 )=DX+E2X=2+2 实用中常用实用中常用S S2估计估计21）基本思想：使样本获得最大概率的参数值作为总体未知参数的估计值。2）对离散型总体X：概率分布样本样本(X X1 1,X Xn n)在在处的概率处的概率为为：最大似然估计量分布列分布列极大似然估计3）对连续型总体：样本(X1,Xn)在处的概率为：其大小与无关。令：称为似然函数。原理：寻找使得：称为极大似然估计量。密度函数密度函数(2)求解，得极大似然函数估计量。4）极大似然估计法的步骤：(1)求似然函数；对极值问题：利用极值原理令：，称方程组为似然方程组。为了计算方便，似然方程组可改写为：，称之为参数1,n的极大似然估计量。附注：方程组无解时需回归似然函数或求数值解.1、无偏性：定义：设是参数的一个估计量，若对任意的，有，则称是参数的无偏估计量。四、点估计的优良准则四、点估计的优良准则2、最小方差无偏性定义1：设和都是未知参数的无偏估计量，并且对任意的满足：，则称比有效。（有效性）（有效性）定义2：如果存在一个的无偏估计量，使得对的任意无偏估计量T，当时，有，则称T *为的一致最小方差无偏估计量。(UMVUE）2）存在并且可以在的积分号下对求偏导数,g()存在，则对任意:定理1(Cramer-Rao不等式)：设总体X 的概率分布或密度函数为，其中为未知参数,X1,Xn为总体X 的样本，为g()的无偏估计量，且满足如下条件：1）集合与参数无关；其中：称为方差下界（或C-R下界）,I()称为Fisher信息量。注注:1.2.方差达到C-R下界的无偏估计称为有效估计。定理2：在定理1的条件下有：1）为的有效估计量的充要条件是可化为形式，即：其中与似然函数形式上完全一样，只是将似然函数中的小写字符改写成大写字符Xi。仅是的函数，并且为的无偏估计量。有效估计有效估计一致最小方差无偏估计一致最小方差无偏估计无偏估计无偏估计.2）C()和I()之间的关系：C()和D(T )之间的关系：3）的有效估计量是唯一的；4）的有效估计量一定是的唯一极大似然估计量。三三.相合性相合性(一致性一致性).定义定义对任给的对任给的满足满足:定理定理因：是最小方差无偏估计量2、单个正态总体的期望和方差的区间估计1)的区间估计目的：求给定置信度为1-时的置信区间。故存在常数c，使得：即：由置信度1-与分布确定常数c，可得的区间估计.五、区间估计五、区间估计（1）当2已知时：因：给定1-，有：即：即的置信度为1-的置信区间为：（2）当2未知时：因：给定1-，与2已知相同，将u分位数变为t分位数即可，故：的置信度为1-的置信区间为：2）2的区间估计目的：参数为未知时2的置信区间。因：S 2是2的最优无偏估计量，故存在k1,k2(k11 k2)，使得：，从而故：2的置信区间应为，其中参数由置信度1-和总体X 的分布确定。当1-给定，且，由定义知：即：令：故：故置信区间为：一般置信区间的求解步骤一般置信区间的求解步骤:保证分布易求保证分布易求保证分布易求保证分布易求3、两个正态总体的区间估计：假设总体 ,(X1,Xn)是X 的样本，总体 ,(Y1,Ym)是Y的样本。1)两个正态总体均值差的区间估计：因：是1-2的最小方差无偏估计量，故：则：1-2置信区间形式为：(1)当已知时：1-2 的置信度为1-的置信区间为：(2)当未知时：当n30,m30时，1-2 的置信度为1-的置信区间为：当n,m 较小时，设，则：所以:1-2 的置信度为1-的置信区间为:其中：则有：当n,m 较小时，查阅。2)两个正态总体方差比的置信区间：当未知时，设：，即：又因：，得：所以：令：，得：的置信度为1-的置信区间：当已知时，三三.非正态总体情况非正态总体情况一般难以计算一般难以计算,但样本容量较大时但样本容量较大时,可以化为正态总体情况处理可以化为正态总体情况处理.以下讨论以下讨论0-1分布的参分布的参数数 p 的置信区间的置信区间.此处假定此处假定 n 30 X B(1,p)用样本均值估计用样本均值估计p假假设设检检验验重庆大学数统学院重庆大学数统学院李寒宇李寒宇2407839512407839511359423096913594230969首先对总体的某信息首先对总体的某信息作作出假设出假设先假设原假设成立备择假设原假设某种信息，如未知参数的最优估计量与参数的差别不会太大应很小假设原假设成立也应很小所以0 00 0很大就是一个小概率事件若发生发生了，自然有理由相信原假设不成立；否则，不能否定原假设，只能接受基基本本思思想想在区域的概率,即原假设成立时拒绝原假设的概率假设检验的基本步骤：1）提出原假设H0与备择假设H1；2）分析并提出原假设H0的拒绝（否定）域的形式K0；3）给出显著性水平，确定拒绝域K0；4）作出是否拒绝H0的判断。充分充分理由才能否定的理由才能否定的作为原假设作为原假设未知参数的最优估计量与参数的差别不会太大二、二、参数假设检验参数假设检验1、单个正态总体参数的假设检验：设X1,Xn是来自总体XN(,2)的样本.1)的假设检验关于的各种统计假设形式：H0:0；H1:0；H0:0；H1:0；H0:0；H1:0；H0:0；H1:0；H0:0；H1:0；2)2的假设检验关于2的各种统计假设形式：H0:202；H1:202；H0:202；H1:2 02；H0:202；H1:2 02；H0:202；H1:2 2；H0:1 2；H1:1 2；H0:1 2；H1:1 2；H0:1 2；H1:1 2；其中：H0:12 22；H1:12 22；H0:12 22；H1:12 22；H0:12 22；H1:12 22；H0:12 22；H1:12 yyi i个数个数n n+;x;xi iyyi i个数个数n-n n+n-=n不能太小不能太小拒绝域拒绝域检验方法：符号检验法情形情形2:m,n2:m,n且且x xi i,y,yi i无要求无要求*秩和检验法*112112回回归归分分析析重庆大学数统学院重庆大学数统学院李寒宇李寒宇2407839512407839511359423096913594230969113113二、二、一元线性回归一元线性回归1、回归模型：设为观测值，满足模型回归函数回归函数*任务：估计、检验未知参数任务：估计、检验未知参数114114找：最小二乘法*尽可能尽可能小小尽可能尽可能小小尽可能尽可能小小115115得：*116116117117性质性质1:残差和为零，即残差和为零，即；性质性质2:在样本回归直线上，即在样本回归直线上，即且：且：3、样本回归直线和参数估计量的性质118118性质性质3119119性质性质4、是是2的无偏估计量。的无偏估计量。性质性质5、分别与分别与相互独立，且有：相互独立，且有：（1）（2）（3）10成立时，有成立时，有记：记：1201204、显著性检验样本回归直线中Y 与X 之间线性相关性的显著性检验：统计假设：H0：1=0；H1：10；1）F 检验法2）t 检验法3）r 检验法*1211211）F 检验法因是1的无偏估计量，即：则H0的拒绝域为：则：又：*1221222）t 检验法则H0的拒绝域为：故拒绝域为：*1231233）r 检验法*故拒绝域为：1241241）点预测：预测值。预测值。回归方程:*预测与控制2）区间预测：y0的置信度为1-的的置信区间*125125126126*127127Y0 的区间预测*128128特别地：当样本容量n很大，且在附近时，有：则：Y 0的预测区间为：*129129130130*当样本容量n很大，且在附近时，令：方方差差分分析析重庆大学数统学院重庆大学数统学院李寒宇李寒宇2407839512407839511359423096913594230969试验指标：试验中所观测到的试验结果。涉及的概念：因素：试验中需要考察的、可以控制的条件水平：因素所处的不同状态影响某农作物亩产量的因素影响某农作物亩产量的因素：品种：品种、施肥量、气候等、施肥量、气候等施肥量的多少，施肥量的多少，8080斤，斤，100100斤斤组内均值总体均值总离差平方和组间差平方和统计假设：组内差平方和且：平方和分解公式单因素方差分析表方差来源自由度平方和均方F值P P值因素Ar-1p p随机误差n -r总和n-1统计分析，是的点估计量。效应值：第i个水平对实验指标的特殊影响故可由的大小来判断Ai对试验指标的影响大小。故：故：i的置信度为1的置信区间为：期望的置信区间无交互作用的无交互作用的双因素方差分析双因素方差分析:第五章第五章.双因素方差分析双因素方差分析(Two way Analysis of Variance)提出假设：提出假设：第五章第五章.双因素方差分析双因素方差分析(Two way Analysis of Variance)分析：分析：分析：分析：第五章第五章.双因素方差分析双因素方差分析(Two way Analysis of Variance)双因素方差分析表：双因素方差分析表：假设判别：假设判别：第五章第五章.双因素方差分析双因素方差分析(Two way Analysis of Variance)有交互作用的有交互作用的双因素方差分析双因素方差分析第五章第五章.双因素方差分析双因素方差分析(Two way Analysis of Variance)有交互作用的双因素方差分析：提出假设有交互作用的双因素方差分析：提出假设第五章第五章.双因素方差分析双因素方差分析(Two way Analysis of Variance)第五章第五章.双因素方差分析双因素方差分析(Two way Analysis of Variance)有交互作用的双因素方差符号表示与定义：有交互作用的双因素方差符号表示与定义：其中，其中，r是是A因素的水平数，因素的水平数，s是是 B因素的因素的水平数，水平数，n是重复试验次数是重复试验次数.正交设计正交设计(Orthogonal design)：是试验设计中的一种方法是试验设计中的一种方法第五章第五章.正交设计与方差分析正交设计与方差分析正交表：正交表：.正交设计与方差分析正交设计与方差分析(Orthogonal design and Analysis of Variance)两列间交互作用的位置：两列间交互作用的位置：

展开阅读全文