1、第一章 气象资料及其表示方法1、 平均值含义:是要素总体数学期望的一个估计。反映了该要素的平均(气候)状况。2、 距平含义:反映数据偏离平均值的状况 ,也是通常所说的异常。距平序列:单要素样本中每个样本资料点的距平值组成的序列称为距平序列,也可以记为距平向量。3、中心化的概念:把资料处理为距平的方法叫中心化。 气象上常用距平值代替原样本中的资料值作为研究对象。 4、 中心化的必要性:因为气象要素的年变化周期影响很大,各月的平均值不一样,为了使之能在同一水平下比较,常使用距平值(比如之前的举例)。5、中心化的特性:距平值的平均值为0,使用方便;直接作为预报值,比较直观(偏高/偏低)。 6、方差和
2、均方差(标准差) 对气象要素x,资料长度n,其表达式: 含义:SX是均方差,描述样本中资料与平均值差异的平均状况,反映变量围绕平均值的平均变化程度(离散程度),SX2是方差。7、 方差和均方差(标准差)气象上的应用: 1)如果12月份气温标准差比1月份大,反映了12月份气温随时间变化幅度比1月大。 2)对于同一个月,如果南京气温的标准差比北京小,说明北京气温变化幅度大。(内陆日变化较沿海大,这个日变化大小的比较就使用标准差比较的) 3)均方差小的要素预报比大的容易。均方差越大,变量不确定性越大,预报越困难。 4)变量减去某常数后均方差相同。8、累积频率:变量小于某上限的次数与总次数之比。(样本
3、特征直方图)9、总体(母体):统计分析对象的全体。样本:总体中的一部分。10、为何要进行标准化?各要素单位不同、平均值和标准差也不同。为使它们在同一水平上比较,采用标准化方法,使它们变成同一水平的无单位的变量-标准化变量。目的:为了消去单位量纲不同所造成的影响。正态化的必要性:各类统计预报模型和统计检验方法(F,t,u,X2检验)要求资料是符合正态分布正态化的处理方法:立方根或四次方根;双曲正切转换;化为有序数后的正态化转换(标准化和正态化)11、标准化变量的平均值为0。标准化变量的方差为1。12、峰度系数与偏度系数 峰度系数与偏度系数是用来衡量随机变量分布密度曲线形状的数字特征,描述了气候变
4、量的分布特征。 偏度系数:表征曲线峰点对期望值(平均值)偏离的程度。 峰度系数:表征分布形态图形顶峰的凸平度(即渐进于横轴的陡度)。13、标准偏度系数和峰度系数的计算公式为:偏:峰:s为标准差14、状态资料(离散型随机变量):表征气象要素的各种状态,观测结果无法用数据表示。15、对样本而言是频率表,总体而言就是分布列。16、两个方面来研究问题:“R型分析”:研究不同变量(要素)或同一要素不同格点之间的关系(行)。“Q型分析”:研究样本之间的关系(列)。17、协方差:衡量任意两个气象要素(变量)之间关系的统计量(正、负相关关系)18、协方差气象意义的进一步理解:1)反映了两个气象要素异常关系的平
5、均状况,或者两个变量的正、负相关关系。如理解(气温为例):前冬气温负距平(冷)、后冬正距平(暖)-协方差负值-反相关;前冬气温正距平(暖)、后冬正距平(暖)-协方差正值-正相关2)变量自身的协方差就是方差。 19、协方差矩阵 ,对角线元素是第i个变量的方差,撇号代表距平。20、区域资料的整理的三种方法:(1)代表站方法-平均相关系数最大的站(2)区域平均法:区域平均值要与周围格点(站点)值区别大(3)综合指数法(各站点要素方差差异较大)K越大,异常越明显。21、资料的订正:插补、纠正、延长22、资料的误差:1)抽样误差2)观测误差:系统误差(仪器不良);偶然误差(操作不慎);随机误差(四舍五入
6、)23、资料的质量要求:准确性和精确性;均一性;代表性;比较性24、资料的审查分为两类:技术性检查;合理性25、气象资料的订正方法:回归订正法(关系密切的站);差值订正法(地理环境近似一致的站点);比值订正法(两站降水比值为准常数)第二章 选择最大信息的预报因子1、天气预报指标必须满足两个经验性的条件(1)P(A/B)P(A)或者P(A/B)1或P(A/B)-0,预报指标有一定准确率2、二分类预报:只预报事件A出现或者不出现(非A),又称为正反预报。设P(A)=p,P(非A)=q,p+q=1 符合二项分布的条件:每次试验只有两个结果;试验条件不变,每次实验结果一样;试验的独立性。 用于计算天气
7、现象出现的概率特别是小概率事件,天气预报指标的检验。3、状态要素:可以用条件概率选择预报因子并且用二项分布检验预报因子的可靠程度。 定量数据要素:主要用相关系数选择预报因子或因子集,并用t检验方法检验其可靠性。4、样本相关是否意味着总体相关? 正态总体的相关检验实质上是两个变量间或不同时刻间观测数据的独立性检验。所谓相关检验,就是检验 =0的假设是否显著 。 在假设总体相关系数=0成立条件下,样本相关系数r的概率密度函数正好是t分布的密度函数。于是,就可以用t检验法来检验。5、t 检验 在原假设=0的条件下,统计量 符合自由度为n-2的t分布。给定信度 和样本相关系数r,根据自由度查出ta,若
8、|t|大于等于ta,即否定=0,总体相关;反之接受=0,总体非相关。 6、由ta计算出ra:样本容量固定时,通过检验的t值应该至少等于ta,故有式中, ra就是通过检验的相关系数临界值。实际应用中,若已知自由度(n-2)和显著性水平,查相关系数表即可。7、自相关系数:衡量气象要素不同时刻之间的关系密切程度的量是自协方差和自相关系数。8、落后交叉协方差和相关系数:衡量两个变量不同时刻之间的相关密切程度的量,常用落后交叉协方差和落后交叉相关系数表示。9、高自相关变量间的相关系数及其统计检验:(1)两个变量无持续性(非高自相关)t检验(2)两变量本身有强持续性或高自相关,t检验的自由度不能用,需要计
9、算有效自由度n/T,其中 10、偏相关系数:当存在三个以上变量互相影响时(如考虑y和x1、x2之间的关系),需要考虑消除了x1(x2)影响后,x2(x1)与y的相关关系,这时候的相关系数称为偏相关系数,记为11、简单相关系数:描述两个变量线性相关的统计量,一般简称为相关系数或者点相关系数,用r表示。它也做为两总体相关系数的估计。12、相关系数是标准化变量的协方差。(2)有-1=r0,表明两变量呈正相关,越接近1 ,正相关越显著;当r=ta,表明两区域的均值存在显著差异。 若样本量足够大,4、F检验-检验两个总体方差是否存在显著差异 上述统计量遵从自由度v1=n1-1,v2=n2-1的F分布。若
10、F=F(a/2)则认为两地样本方差有显著差异,或者说气候有显著差异。第四章 气候变化趋势分析1、气候时间序列:随时间变化的一列气候数据。2、气候序列的基本特点: 1)数据取值随时间变化;2)每一时刻取值的随机性;3)前后时刻数据之间存在相关性、持续性;4)序列整体有上升或下降趋势,呈周期振荡;5)某一时刻数据取值出现转折或突变。3、回归系数b (气候倾向率):回归系数b表示了变量x的趋势倾向。b符号为正,说明变量随时间t的增加呈上升趋势,反之则为下降趋势,b值的大小反应了上升和下降的速率,即倾向程度。4、相关系数r (气候趋势系数):变量与时间的相关系数表示变量x随时间变化程度。要判断变化趋势
11、的程度是否显著,就要对相关系数进行显著性检验。5、滑动平均是趋势拟合技术最基础的方法,它相当于低通滤波器。用确定时间序列的平滑值来显示变化趋势。主要从滑动平均序列曲线图来诊断其变化趋势。 6、累积距平也是一种常用的、由曲线直观判断变化趋势的方法。对于序列x,其某一时刻t的累积距平表示为:7、累积距平计算结果分析:1)累积距平曲线呈上升趋势,表示距平值增加;2)呈下降趋势,表示距平值减小;3)从曲线明显的上下起伏,可以判断其长期显著的的演变趋势及持续性变化,甚至还可以判断出发生突变的大致时间。从曲线小的波动可以考察其短期的距平值变化。图1b 1976 年是个明显的转折点, 在这之前累积曲线基本上
12、呈上升趋势, 海温以正距平主, 这之后累积曲线呈下降趋势, 海温以负距平为主。1951- 1975 年平均海温距平为12, 而1977- 1993 年平均海温距平为-128。这就是说西风漂流区年平均海温从1951- 1975 年至1977- 1993 年下降了0148。图1c 1981 年是个明显的转折点, 在这之前累积曲线呈下降趋势, 海温以负距平为主, 这之后累积曲线呈上升趋势, 海温以正距平为主。1951- 1980 年平均海温距平为0.08, 1982- 1993 年为0.21, 赤道太平洋年平均海温1981 年后比1981 年前增加了0.29。8、五、七和九点二次平滑方法概述:对时间
13、序列做五点二次、七点二次和九点二次平滑,与滑动平均一样,也起到低通滤波的作用,以展示出变化趋势。 优点:可以克服滑动平均削弱过多波幅的缺点。第五章 一元线性回归1、一元回归处理的是两个变量之间的关系,即一个预报量和一个预报因子之间的关系。2、距平形式的回归方程:3、回归问题的方差分析意义:评价回归方程的优劣。预报量的方差可以表示成回归估计值的方差(回归方差)和误差方差(残差方差)之和。4、方差分析表明,预报量y的变化可以看成由前期因子x的变化所引起的,同时加上随机因素e变化的影响,这种前期因子x的变化影响可以归为一种简单的线性关系,这部分关系的变化可以用回归方差的大小来衡量。如果回归方差大,表
14、明用线性关系解释y与x的关系比较符合实际情况,回归模型比较好。5、U和Q分别称为回归平方和及残差平方和Syy称为总离差平方和。U反映了回归值的分散程度。Q反映了观测值偏离回归直线的程度。6、三个平方和的意义概括如下:总平方和(Syy):反映因变量的 n 个观察值与其均值的总离差。回归平方和(U):反映自变量 x 的变化对因变量 y 取值变化的影响,或者说,是由于 x 与 y 之间的线性关系引起的 y 的取值变化,也称为可解释的平方和。残差平方和(Q):反映除 x 以外的其他因素对 y 取值的影响,也称为不可解释的平方和或剩余平方和。7、相关系数与线性回归:因为回归方差不可能大于预报量的方差,可
15、以用它们的比值来衡量方程的拟合效果。表明了预报因子x对预报量y的方差的线性关系程度,这一比值又称为解释方差。也可以说明相关系数的含义:它是衡量两个变量线性关系密切程度的量,又被称为回归方程的判决系数。8、判决系数R2:回归平方和占总离差平方和的比例。1)反映回归直线的拟合程度;2)取值范围在 0 , 1 之间;3)R2 1,说明回归方程拟合的越好;R20,说明回归方程拟合的越差;4)判决系数等于相关系数的平方,即R2r29、回归系数b与相关系数之间的关系 ,r与b同号。10、回归方程的显著性检验:F=(U/1)/(Q/(n-2)原假设回归系数b为0的条件下,上述统计量遵从分子自由度为1,分母自
16、由度为(n-2)的F分布,若线性相关显著,则回归方差较大,因此统计量F也较大;反之,F较小。对给定的显著性水平a, 查表得到F临界值Fa,如果FFa,则拒绝原假设,认为线性相关显著。对于一元线性回归来说,因为F的相关系数表达式开方就是相关系数t检验的表达式,故回归方程的检验与相关系数的检验一致。11、回归分析与相关分析的区别:1. 相关分析中,变量 x 变量 y 处于平等的地位;回归分析中,变量 y 称为因变量,处在被解释的地位,x 称为自变量,用于预测因变量的变化。2. 相关分析中所涉及的变量 x 和 y 都是随机变量;回归分析中,因变量 y 是随机变量,自变量 x 可以是随机变量,也可以是
17、非随机的确定变量。3. 相关分析主要是描述两个变量之间线性关系的密切程度;回归分析不仅可以揭示变量 x 对变量 y 的影响大小,还可以由回归方程进行预测和控制。 第六章 多元线性回归1、多元回归就是研究一个预报量和多个预报因子之间的关系。主要讨论较为简单的多元线性回归。其分析原理与一元线性回归分析完全相同。2、线性回归模型的距平形式:3、 预报量的方差可以表示成回归估计值的方差(回 归方差)和误差方差(残差方差)之和。4、复相关系数:衡量一个变量(预报量)和多个变量(因子)之间的线性关系程度的量,因为变量之间的关系可归结为一个多元线性回归方程,所以复相关系数是衡量预报量和估计量之间线性相关程度
18、的量。上式反映了回归平方和、总离差平方和与复相关系数的关系。可见,复相关系数实际是衡量p个因子对预报量的线性解释方差的百分率,其变化在01之间。5、假设预报因子与预报量之间无线性关系,则回归系数应该为0。检验假设: 计算统计量遵从分子自由度为p,分母自由度为n-p-1的F分布,在显著性水平a下,若FFa,认为回归方程是显著的。6、若在预报因子中减去第i个因子,再建立对y的预报方程,则回归系数、回归平方和、残差平方和记为 bj*、U、Q,定义第i个 因子的方差贡献为cii是因子离差矩阵的逆矩阵C的第i行第i列元素。7、计算统计量符合自由度为(1,n-p-1)的F分布。给定信度以后,当Fi=Fa第
19、i个因子的方差贡献是显著的。8、利用回归方程进行预报的步骤:1)确定预报量并选择恰当的因子。2)根据数据计算回归系数标准方程组所包含的有关统计量(因子的交叉积、矩阵协方差阵或相关矩阵,以及因子与预报量交叉积向量等);3)求解线性方程组,定出回归系数;4)建立回归方程并进行统计显著性检验;5)利用已经给出的因子带入回归方程做出预报量的估计,求出预报值的置信区间。第七章 逐步回归方法1、既要选择对预报量影响显著的因子,又要使回归方程的残差方差估计很小,这样才有利于气象预报。2、逐步回归的三种方案:1)逐步剔除方案2)逐步引进方案3)双重检验的逐步回归方案第八章 气象场的自然正交展开1、EOF分析方
20、法原理:将某气候变量场的观测资料以矩阵(m行n列)形式给出。m是空间点,n是时间序列长度。2、气象场的自然正交展开,是将X分解为时间函数Z和空间函数V两部分,即X=VZ i=1,2,m t=1,2,n, k=1,2,p含义:场中第i个格点上的第t次观测值,可以看作是p个空间函数vik和时间函数zki的线性组合 。上式表明,第t个场可以表示为m个空间典型场,按照不同的权重线性叠加而成。V的每一列表示一个空间典型场,由于这个场由实际资料确定,故又叫经验正交函数。3、上述分解要求满足下列两个条件:4、重要参数第i个特征向量对X场的贡献率前p个特征向量对X场的贡献率5、计算步骤:1)根据分析目的,确定
21、X的具体形态(距平或者标准化距平);2)由X求协方差矩阵A=XXT;3)求A的全部特征值 、特征向量 ,h=1H(通常使用Jacobi法);4)将特征值作非升序排列(通常使用沉浮法),并对特征向量序数作相应变动;5)根据 ,h=1H和X总方差,求出全部 、 , h=1H;6)由X及主要 求其时间系数 、h=1H,主要的数量由分析目的及分析对象定;7)输出主要计算结果。 6、经验正交函数的物理意义 特征向量以及时间系数的分析。 vv第一特征向量(第一空间典型场)是与n张X图平均最相似的,或者说具有与所要展开的资料矩阵的n个样本最相似的特征。比如:若原始资料矩阵是7月份50年实测将水场(非距平场)
22、,则第一特征向量就可以解释为这50年的平均场,其相应的时间系数基本对应我国大尺度旱涝年。但当降水场由距平组成,第一特征向量就解释为与50年夏季距平场最相似的特征场,它指出了我国夏季经常出现的大尺度涝区和旱区。第九章 聚类分析1、主要分类:1)快速样本聚类:事先指定用于聚类分析的类数 2)系统聚类:不指定最终的类数,结论将在聚类过程中寻求对样本进行聚类(Q型聚类)对变量进行聚类(R型聚类) 读书的好处1、行万里路,读万卷书。2、书山有路勤为径,学海无涯苦作舟。3、读书破万卷,下笔如有神。4、我所学到的任何有价值的知识都是由自学中得来的。达尔文5、少壮不努力,老大徒悲伤。6、黑发不知勤学早,白首方悔读书迟。颜真卿7、宝剑锋从磨砺出,梅花香自苦寒来。8、读书要三到:心到、眼到、口到9、玉不琢、不成器,人不学、不知义。10、一日无书,百事荒废。陈寿11、书是人类进步的阶梯。12、一日不读口生,一日不写手生。13、我扑在书上,就像饥饿的人扑在面包上。高尔基14、书到用时方恨少、事非经过不知难。陆游15、读一本好书,就如同和一个高尚的人在交谈歌德16、读一切好书,就是和许多高尚的人谈话。笛卡儿17、学习永远不晚。高尔基18、少而好学,如日出之阳;壮而好学,如日中之光;志而好学,如炳烛之光。刘向19、学而不思则惘,思而不学则殆。孔子20、读书给人以快乐、给人以光彩、给人以才干。培根