1、统计学统计学STATISTICS实例实例1:1:中国妇女生育水平的决定因素是什么中国妇女生育水平的决定因素是什么?妇女生育水平除了受计划生育政策影响以外,还可能与社会、经济、文化等多种因素有关。1、影响中国妇女生育率变动的因素有哪些?2、各种因素对生育率的作用方向和作用程度如何?3、哪些因素是影响妇女生育率主要的决定性因素?4、如何评价计划生育政策在生育水平变动中的作用?5、计划生育政策与经济因素比较,什么是影响生育率的 决定因素?6、如果某些地区的计划生育政策及社会、经济、文化 等因素发生重大变化,预期对这些地区的妇女生育 水平会产生怎样的影响?统计学统计学STATISTICS据世界卫生组织
2、统计,全球肥胖症患者达3亿人,其中儿童占2200万人,11亿人体重过重。肥胖症和体重超常早已不是发达国家的“专利”,已遍及五大洲。目前,全球因”吃”致病乃至死亡的人数已高于因饥饿死亡的人数。(引自光明日报刘军/文)问题:肥胖症和体重超常与死亡人数真有显著 的数量关系吗?这些类型的问题可以运用相关分析与回归分析的这些类型的问题可以运用相关分析与回归分析的方法去解决。方法去解决。实例2:全球吃死的人比饿死的人多?统计学统计学STATISTICS相关关系与回归分析很多现象除了自身的变动以外,与其它现象之间可能有一定的依存关系,这种依存关系表现为不确定的统计关系,或称为相关关系。相关关系主要是判断两个
3、或两个以上变量之间是否存在相关关系,并分析变量间相关关系的形态和程度。回归分析是对存在的相关关系的现象间数理化规律的测定。统计学统计学STATISTICS统计学统计学STATISTICS统计学统计学STATISTICS7.1 7.1 相关与回归的基本概念相关与回归的基本概念一、相关关系的概念相关关系的概念二、相关系数二、相关系数三、相关三、相关统计学统计学STATISTICS 一、一、相关关系的概念相关关系的概念确定性的函数关系确定性的函数关系 Y=f(X)不确定性的统计关系相关关系相关关系 Y=f(X)+(为随机变量)没有关系没有关系 变量间关系的图形描述:坐标图(散点图)1.变量间的相互关
4、系变量间的相互关系统计学统计学STATISTICS 2、相关关系的类型、相关关系的类型从涉及的变量数量变量数量看单相关:2个变变量复相关(多元相关):3个或3个以上变量从变量相关关系的表现形式表现形式看 线性线性相关散布图接近一条直线(左图)非线性非线性相关散布图接近一条曲线(右图)统计学统计学STATISTICS从变量相关关系变化的方向方向看正相关正相关变量同方向变化A同增同减(A)(A)负相关负相关变量反方向变化 一增一减(B)(B)B从变量相关的程度看完全相关(B)不完全相关(A)C不相关(C)统计学统计学STATISTICS相关关系的描述相关表:是一种统计表,将一个变量的若干变量值按从
5、小到大的顺序排列,另一变量的值与之对应排列。相关图:又称散点图,将两个变量相对应的变量值用坐标点的形式描绘出来,用于表面相关点分布状况的图形。统计学统计学STATISTICS 总体相关系数总体相关系数对于所研究的总体,表示两个相互联系变量相关程度 的总体相关系数为:总体相关系数反映总体两个变量总体相关系数反映总体两个变量X X和和Y Y的线性相关程度。的线性相关程度。特点:特点:对于特定的总体来说,X和Y的数值是既定的 总体相关系数是客观存在的特定数值。二、相关系数统计学统计学STATISTICS样本相关系数通过x和y 的样本观测值去估计变量x和y的样本相关系数通常用 表示 特点:样本相关系数
6、是根据从总体中抽取的随机样本 的观测值计算出来的,是对总体相关系数的估 计,它是个随机变量。统计学统计学STATISTICS相关系数的特点:相关系数的取值在-1与1之间。当r=0时,表明x与y没有线性相关关系。当 时,表明x与y存在一定的线性相关关系:若 表明x与y 为正相关;若 表明x与y为负相关。当 时,表明x与y 完全线性相关:若r=1,称x与y 完全正相关;若r=-1,称x与y 完全负相关。统计学统计学STATISTICS使用相关系数的注意事项:x和y 都是相互对称的随机变量,所以相关系数只反映只反映变量间的线性相关程度,不 能说明非线性相关关系。相关系数不能确定变量的因果关系,也不能
7、 说明相关关系具体接近于哪条直线。统计学统计学STATISTICS 相关系数的检验为什么要检验?为什么要检验?样本相关系数是随抽样而变动的随机变量,相关系数的统计显著性还有待检验。检验的依据:检验的依据:样本相关系数具有一定的概率分布,必须明确其抽样分布性质。如果x与y都服从正态分布,在总体相关系数 的假设下,与样本相关系数 r 有关的 t 统计量服从自由度为n-2的 t 分布:统计学统计学STATISTICS相关系数的检验方法给定显著性水平 ,查自由度为 n-2 的临界值 若 ,表明相关系数 r 在统计上是显著的,应否定 而接受 的假设;反之,若 ,应接受 的假设。统计学统计学STATIST
8、ICS 三、Spearman等级相关系数当变量不满足正态分布要求或不是数量型变量时,简单线性相关系数不宜使用,可以用Spearman等级相关系数作相关性分析。对于样本容量为n的变量x和y,如果取值都可以分为n个等级,而且样本的n个单位分别不重复地属于x和y的不同等级,没有两个单位取相同等级的情况,并且用表示样本单位属于x的等级与y的等级的级差。Spearman等级相关系数为:统计学统计学STATISTICSSpearman等级相关系数的特性样本等级相关系数的取值范围:时,说明样本等级完全正相关;时,样本等级完全负相关;时,说明样本等级不相关;当时,越接近1,正相关程度越高;当时,越接近-1,负
9、相关程度越高。可以证明:Spearman等级相关系数是简单线性相关系数的特例。统计学统计学STATISTICS72 一元线性回归分析一元线性回归分析一、一、相关分析与回归分析的联系二、总体回归函数与样本回归函数二、总体回归函数与样本回归函数三、回归系数的普通最小二乘估计三、回归系数的普通最小二乘估计四、拟合优度度量四、拟合优度度量统计学统计学STATISTICS 一一、相关分析与回归分析的联系、相关分析与回归分析的联系回归的古典意义古典意义:高尔顿遗传学的回归概念高尔顿遗传学的回归概念父母身高与子女身高的关系父母身高与子女身高的关系:无论高个子或低个子的子女无论高个子或低个子的子女 都有向人的
10、平均身高回归的都有向人的平均身高回归的 趋势趋势统计学统计学STATISTICS 回归的现代意义回归的现代意义:一个因变量对若干解释(自)变量依存关系的研究回归的目的目的(实质)(实质):由固定的自变量去估计因变量的平均值由固定的自变量去估计因变量的平均值样样样样本本本本总总总总体体体体自变量固定值自变量固定值自变量固定值自变量固定值自变量固定值自变量固定值估计因变估计因变量平均值量平均值统计学统计学STATISTICS相关分析与回归分析的区别相关分析的任务是确定两个变量之间的相关的方向和密切长度。回归分析的任务是寻找因变量对自变量依赖关系的数学表达式;相关分析不必确定两变量中哪个是自变量,哪
11、个是因变量,两个变量都可以是随机的,而回归分析中必须区分自变量与因变量,其中因变量是随机的,自变量不是随机的;相关分析中两变量是对等的,改变两者的地位,并不影响相关系数的数值,只有一个相关系数。而在回归分析中,互为因果关系的两个变量可以编制2个独立的回归方程统计学统计学STATISTICS相关分析与回归分析的联系1.1.共同的研究对象:都是对变量间相关关系的分共同的研究对象:都是对变量间相关关系的分析析2.2.只有当变量间存在相关关系时,用回归分析去只有当变量间存在相关关系时,用回归分析去寻求相关的具体数学形式才有实际意义寻求相关的具体数学形式才有实际意义3.3.相关分析只表明变量间相关关系的
12、性质和程度,相关分析只表明变量间相关关系的性质和程度,要确定变量间相关的具体数学形式依赖于回要确定变量间相关的具体数学形式依赖于回归分析归分析4.4.相关分析中相关系数的确定建立在回归分析的相关分析中相关系数的确定建立在回归分析的基础上基础上统计学统计学STATISTICS若干基本概念 y的条件分布条件分布:y在x取某固定值条件下的分布。对于x的每一个取值,都有y的条件期望条件期望与之对应,在坐标图上y的条件期望的点随x而变化的轨迹所形成的直线或曲线,称为回归线回归线。二、总体回归函数与样本回归函数二、总体回归函数与样本回归函数统计学统计学STATISTICS 二、总体回归函数与样本回归函数二
13、、总体回归函数与样本回归函数如果把y的条件期望 表示为x的某种函数:,这个函数称为回归函数回归函数。如果其函数形式是只有一个自变量的线性函数,如 ,称为一元线性回归函数一元线性回归函数。统计学统计学STATISTICS总体回归函数(PRF)概念:概念:将总体因变量y的条件均值表现为自变量x的某种函数,这个函数称为总体回归函数(简记为PRF)。表现形式:表现形式:(1)条件均值(期望)表现形式(2)个别值表现形式(随机设定形式)统计学统计学STATISTICS样本回归函数(SRF)概念:概念:y的样本观测值的条件均值随自变量x而变动的轨迹,称为样本回归线样本回归线。如果把因变量y的样本条件均值表
14、示为自变量x的某种函数,这个函数称为样本回归函数样本回归函数 (简记为SRF)。表现形式:表现形式:线性样本回归函数可表示为 或者 统计学统计学STATISTICS总体回归函数与样本回归函数统计学统计学STATISTICS 样本回归函数与总体回归函数的关系 相互联系样本回归函数的函数形式应与设定的总体回归函数的函数形式一致。和 是对总体回归函数参数的估计。是对总体条件期望 的估计 残差 e 在概念上类似总体回归函数中的随机 误差u。回归分析的目的:用样本回归函数去估计总体回归函数。统计学统计学STATISTICS样本回归函数与总体回归函数的关系 相互区别总体回归函数虽然未知,但它是确定的;样本
15、回归线随抽样波动而变化,可以有许多条。样本回归线还不是总体回归线,至多只是未知总体 回归线的近似表现。总体回归函数的参数虽未知,但是确定的常数;样本回归函数的参数可估计,但是随抽样而变化的随机变量。总体回归函数中的 是不可直接观测的;而样本回归函数中的 是只要估计出样本回归的参数就可以计算的数值。统计学统计学STATISTICS 三、回归系数的普通最小二乘估计三、回归系数的普通最小二乘估计回归系数估计的思想:回归系数估计的思想:为什么只能对未知参数作估计为什么只能对未知参数作估计?参数是未知的、不可直接观测的、不能精确计算的参数是未知的、不可直接观测的、不能精确计算的 能够得到的只是变量的样本
16、观测值能够得到的只是变量的样本观测值结论结论:只能通过变量样本观测值选择适当方法去近似只能通过变量样本观测值选择适当方法去近似 地估计回归系数。地估计回归系数。前提前提:u u是随机变量其分布性质不确定,必须作某些是随机变量其分布性质不确定,必须作某些 假定,其估计才有良好性质,其检验才可进行。假定,其估计才有良好性质,其检验才可进行。原则原则:使参数估计值使参数估计值“尽可能地接近尽可能地接近”总体参数真实值总体参数真实值统计学统计学STATISTICS一元线性回归的基本假定假定假定1 1:零均值假定。假定假定2 2:同方差假定。假定假定3 3:无自相关假定。假定4:随机扰动 与自变量 不相
17、关。假定假定5 5:正态性假定统计学统计学STATISTICS 回归系数的回归系数的最小二乘估计估计基本思想:希望所估计的 偏离实际观测值 的残差 越小越好。可以取残差平方和 作为衡量 与 偏离程度的标准最小二乘准则估计式:统计学统计学STATISTICS 最小二乘估计的概率分布性质最小二乘估计的概率分布性质 和和 都是服从正态分布的随机变量,其都是服从正态分布的随机变量,其期望为期望为方差和标准误差为方差和标准误差为 结论:结论:统计学统计学STATISTICS最小二乘估计的性质 高斯高斯马尔可夫定理马尔可夫定理前提:前提:在基本假定满足时最小二乘估计是因变量的线性函数线性函数 最小二乘估计
18、是无偏估计无偏估计,即 在所有的线性无偏估计中,回归系数的最小二乘估计的方差最小方差最小。结论:回归系数的最小二乘估计是最佳线性无偏估计最佳线性无偏估计统计学统计学STATISTICS的无偏估计为什么要估计?确定所估计参数的方差需要 由于 不能直接观测,也是未知的 对 的数值只能通过样本信息去估计。怎样估计?可以证明 的无偏估计为:统计学统计学STATISTICS 四、拟合优度的度量拟合优度的度量基本思想:基本思想:样本回归直线是对样本数据的一种拟合,不同估计方法可拟合出不同的回归线。样本回归拟合优度的度量建立在对因变量总离差平方和分解的基础上 总离差平方和总离差平方和 SST 回归平方和回归
19、平方和 SSRSSR 残差平方和残差平方和SSESSE统计学统计学STATISTICS对可决系数的理解用于度量样本回归线对样本观察值拟合程度的好坏SSESSRSST统计学统计学STATISTICS可决系数的特点可决系数是非负的统计量;可决系数取值范围:;可决系数是样本观测值的函数,是随抽样而变动的随机变量;在一元线性回归中,可决系数在数值上是简单线性相关系数的平方 ,统计学统计学STATISTICS7 73 3线性回归的显著性检验线性回归的显著性检验 与回归预测与回归预测一、回归系数显著性一、回归系数显著性t t检验检验二、一元线性回归模型的预测二、一元线性回归模型的预测统计学统计学STATI
20、STICS一、回归系数显著性的一、回归系数显著性的 t t 检验检验目的目的:根据样本回归估计的结果对总体回归函数回归 系数的有关假设进行检验,以检验总体回归系数是 否等于某个特定的数值。思想思想:是未知的,而且不一定能获得大样本,这时可用 的无偏估计 代替 去估计参数的标准误差:统计学统计学STATISTICS 回归系数显著性的回归系数显著性的 t t 检验检验(续续)用估计的参数标准误差对估计的参数作标准化变 换,所得的 t 统计量将不再服从正态分布,而是服 从 t 分布:可利用 t 分布作有关的假设检验。统计学统计学STATISTICS 回归系数显著性回归系数显著性 t t 检验的方法检
21、验的方法(1)提出假设提出假设一般假设:常用假设:(2)计算统计量计算统计量(3)给定显著性水平,确定临界值(4)检验结果判断检验结果判断 若 则拒绝原假设,而接受备择假设 若 则接受原假设,拒绝备择假设统计学统计学STATISTICS回归系数显著性的回归系数显著性的P P值检验值检验P P值的意义值的意义P值的意义:在既定原假设下计算回归系数的t统计量 ,可求得 统计量大于 的概率 :这里的 是 t 统计量大于 值的概率,是尚不能拒 绝原假设 的最大显著水平,称为所估 计的回归系数的P值。统计学统计学STATISTICS回归系数显著性的回归系数显著性的P P值检验值检验 检验方法检验方法回归
22、系数显著性的P值检验方法:将所取显著性水平与P值对比所取的显著性水平 (例如取0.05)若比P 值更大,就可在显著性水平 下拒绝 所取的 若小于P值,就应在显著性水平 下接受统计学统计学STATISTICS二、一元线性回归模型预测二、一元线性回归模型预测对平均值的点预测值 :y的个别值置信度为1的预测区间:统计学统计学STATISTICS因变量的区间预测的特点(1)个别值的预测区间大于平均值的预测区间个别值的预测区间大于平均值的预测区间:y平均值的预测值与真实平均值有误差,主要是受抽样波动影响;y个别值的预测值与真实个别值的差异不仅受抽样波动影响,而且还受随机扰动项的影响(2)对对 预测区间随
23、预测区间随 变化而变化变化而变化:时,=0,此时预测区间最窄,越是远离 ,越大,预测区间越宽。统计学统计学STATISTICS因变量的区间预测的特点(续)(3)预测区间与样本容量有关预测区间与样本容量有关:样本容量n越 大,越大,预测误差的方差越小,预测区间也越窄。(4)当样本容量趋于无穷大(即n)时,不存在抽样误差,平均值预测误差趋于0,此时个别值的预测误差只决定于随机扰动的方差。统计学统计学STATISTICS7.4 多元线性相关与回归分析多元线性相关与回归分析一、多元线性回归模型及假定多元线性回归模型及假定二、多元线性回归模型的估计多元线性回归模型的估计三、多元线性回归模型的检验三、多元
24、线性回归模型的检验统计学统计学STATISTICS 一、多元线性回归模型及假定一、多元线性回归模型及假定 多元总体线性回归函数一般形式 条件均值形式多元线性样本回归函数:一般形式条件均值形式统计学统计学STATISTICS 多元线性回归模型的矩阵多元线性回归模型的矩阵表示表示多元总体线性回归模型的矩阵表示多元总体线性回归模型的矩阵表示 Y=X+UY=X+U多元线性样本回归函数的矩阵表示 Y=X+e 偏回归系数:多元线性回归模型中,回归系数表示当控制其它自变量不变的条件下,第j个自变量的单位变动对因变量均值的影响,这样的回归系数称为偏回归系数。统计学统计学STATISTICS二、多元线性回归模型
25、的估计多元线性回归模型的估计 多元回归模型的假定多元回归模型的假定相同的假定:零均值、同方差、无自相关、随机扰动项与自变量不相关、U正态性增加的假定:各自变量之间不存在线性关系。在此条件下,自变量观测值矩阵X X列满秩 Rank(X)=k方阵满秩Rank()=k意义:可逆,存在统计学统计学STATISTICS多元回归参数的最小二乘估计多元回归参数的最小二乘估计使残差平方和达到最小,其充分必要条件 正规方程组-统计学统计学STATISTICS多元线性回归的最小二乘估计式正规方程组可简记为矩阵形式 存在 参数向量的最小二乘估计为参数最小二乘估计的性质参数最小二乘估计的性质可多元线性回归的最小二乘估
26、计也是最佳线性无偏估计。统计学统计学STATISTICS 随机误差项方差的估计随机误差项方差的估计方差 未知,需要利用样本回归的残差平方和去估计。可以证明,是随机扰动项方差的无偏估计统计学统计学STATISTICS 三、多元线性回归模型的检验三、多元线性回归模型的检验拟合优度检验拟合优度检验多元线性回归离差平方和的分解式多元线性回归离差平方和的分解式 变差变差 SST=SSE+SSR(总离差平方和)(残差平方和)(回归平方和)自由度自由度 n-1=n-k+k-1多重可决系数:多重可决系数:统计学统计学STATISTICS 修正的可决系数修正的可决系数为什么要修正?可决系数是自变量个数的不增函数
27、,比较因变量相同而自变量个数不同的两个模型的拟合程度时,不能简单地对比多重可决系数。需要用自由度去修正多重可决系数中的残差平方和与回归平方和相互关系:统计学统计学STATISTICS 回归参数的显著性检验回归参数的显著性检验 t t 检验检验在多元回归中可以证明其中:是矩阵第 j 行第 j 列的元素。因为未知,故也未知。现用代替对原假设 分别作 t 检验 ,可构造统计量:统计学统计学STATISTICS 回归方程的显著性检验回归方程的显著性检验 F F 检验检验目的:检验多个变量联合对因变量是否有显著影响方法:在方差分析的基础上利用F检验进行假定:不全为零方方差差分分析析表表统计学统计学STA
28、TISTICSF检验的方法给定显著性水平,在F分布表中查出自由度为k-1和n-k 的临界值 F服从自由度为 k-1 和 n-k 的 F 分布。F F检验:检验:在成立的条件下,统计量:若 ,则拒绝 ,说明回归方程中所有自变量联合起来对因变量有显著影响 若 ,则接受 ,说明回归方程中所有自变量联合起来对因变量影响不显著 统计学统计学STATISTICS 本章小结本章小结1、各种变量相互之间的依存关系:确定性的函数关系、不确定性的相关关系 2、变量间的相关关系的程度用相关系数去度量 3、现代意义的回归是关于一个变量对另一个或另外多个变量依存关系的研究。回归分析的目的是要用样本回归函数去估计总体回归
29、函数。4、线性回归的各项基本假定 5、简单线性回归和多元线性回归的最小二乘估计 6、可决系数或修正的可决系数去度量回归的拟合优度统计学统计学STATISTICS 本章小结(续)本章小结(续)7 7 7 7、各个回归系数显著性的、各个回归系数显著性的、各个回归系数显著性的、各个回归系数显著性的t t t t检验或检验或检验或检验或P P P P值检验值检验值检验值检验8 8 8 8、回归方程的显著性检验:在方差分析基础上的、回归方程的显著性检验:在方差分析基础上的、回归方程的显著性检验:在方差分析基础上的、回归方程的显著性检验:在方差分析基础上的F F F F检检检检验验验验 9 9 9 9、利
30、用估计的线性回归模型对因变量作点预测和区、利用估计的线性回归模型对因变量作点预测和区、利用估计的线性回归模型对因变量作点预测和区、利用估计的线性回归模型对因变量作点预测和区间预测间预测间预测间预测 1010、应用、应用ExcelExcel去实现去实现 相关分析和回归分析的实际计相关分析和回归分析的实际计算和图形描绘算和图形描绘统计学统计学STATISTICS第七章重要公式1、总体相关系数2、样本相关系数3、总体回归函数(PRF)4、样本回归函数(SRF)统计学统计学STATISTICS第七章重要公式(续1)5、最小二乘估计6、的无偏估计7、可决系数 统计学统计学STATISTICS第七章重要公式(续2)8、修正可决系数 9、t检验统计量10、F检验统计量统计学统计学STATISTICS第第7 7章结束了章结束了!
©2010-2025 宁波自信网络信息技术有限公司 版权所有
客服电话:4008-655-100 投诉/维权电话:4009-655-100