资源描述
1。数据的类型:根据描述事物所采用的不同尺度,数据分为分类型数据和数量型数据;
按照被描述的对象与时间的关系分为截面数据、时间序列数据与平行数据。
2.图形显示:饼形图、条形图、柱形图、散点图、折线图、曲线图、茎叶图。
(1)饼形图的作用:反映各个部分的构成各频率的总合是100%。
(2)条形图和柱形图:信息的比较-—条形图:不同单位,不同信息的比较;柱形图:同一单位不同时间信息的比较。
(3)折线图:同柱形图作用相似,对同一的数据折线图具有唯一性(两点间有且只有一条直线)。
(4)曲线图:同折线图作用相似也是表示不同时间信息的比较,但不具有唯一性.
(5)散点图:表示两个变量之间的相互关系.(两个变量的任何一对取值都在平面直角坐标系上代表一个点)。
(6)茎叶图:把每一个数据分解成两部分—-茎与叶(它的优点在于它既保留了所有的原始数据又直观地显示出了数据的分布情况(与条形图相似))
3。 平均数、中位数和众数的关系:
(1)数据分布是对称分布时:众数=中位数=平均数
(2)数据分布不是对称分布时:左偏分布时:众数<中位数<平均数
右偏分布时:众数>中位数>平均数
4.分组数据的平均数(加权平均):平均数=
5。 极差R=最大值-最小值(极差容易受极端值的影响有时是无效的)
6。 四分位极差先排队再等分为4份,其中对应Q1,中位数为Q2,的对应Q3,n为总个数。Q3—Q1=四分位极差,这两个点上的数值叫四分位点。如果四分位点不是一个整数则将前后两位数相加除以2便是。
7. 方差
8。 变异系数是标准差与平均数的比值,即:
9.样本空间与随机事件的两种表示方法:(1)列举法;(2)描述法
10。按照随机变量的取值情况,一般把随机变量分为:(1)离散型随机变量;(2)连续型随机变量。
11.若两个事件是相依的,则不一定是互斥的。
12.概率的乘法公式:(B发生的概率×B发生条件下A也同时发生的概率)
13. 全概率公式:
14。 贝叶斯公式:
【例。全概率】某车间有4个工人生产同一种产品,每个人生产的产品个数分别占总产量的15%,20%,30%和35%,每个人的次品率分别为0。05,0.4,0.03和0.02,求该产品的总次品率(即随机地抽取一个产品,它是次品的概率).
解:设Ai代表“取到的产品是第i个人生产的”,i=1,2,3,4。设B代表“取到的产品是次品”。根据题意有:
P(B/A1)=0。05 P(B/A2)=0.04 P(B/A3)=0.03 P(B/A4)=0.02
P(A1)=0.15 P(A2)=0.20 P(A3)=0.30 P(A4)=0.35
我们想要求的是P(B),首先所有的产品都是由4个人中的一个人生产的,因此A1+A2+A3+A4=M,同时,A1,A2,A3。A4两两互斥,由概率的加法公式得P(B)=P(BM)+P{B∩(A1+A2+A3+A4)}=P(BA1)+P(BA2)+ P(BA3)+P(BA4)再由概率的乘法公式,得到=0。15*0。05+0.20*0。04+0。30*0.03+0.35*0.02=0.0315
即总次品率为3.15%
【例.全概率】在上例中,假设车间规定,出了次品要追究有关人士的经济责任,现从生产出的产品中任取一件,结果为次品,但它是由谁生产的标志已脱落,问这4个人当中谁生产了这个次品的可能 性最大?
解:沿用上例的符号,我们想求的是P(Ai/B),i=1,2,3,4。由条件概率的定义和乘法公式,我们可以得到:P(A1/B)=0.15*0。05/0.0315=0。238 P(A2/B)=0.2*0.04/0.0315=0。254
P(A3/B)=0。30*0。03/0。0315=0.286 P(A4/B)=0.35*0。02/0。0315=0.222
即该次品由第3个人生产的概率最大。
【例。贝叶斯】某出版社向80%教授MBA管理经济学的教师寄送了关于一本管理经济学方面的新教科书的广告.在收到广告的教师当中,有30%采用了该书,在没有收到广告的教师中了,有10%采用了该书,已知某教师采用了该书,问他收到了广告的概率是多少?
解:设A代表事件“收到广告”,B为“采用了该书”。则根据题意
P(A)=0.80,P(B/A)=0。30,P(B/A非)=0.10
我们想求的是
=[0。8*0.3]/[0.8*0。3+0.2*0。1]=0。923
15.期望值:
【例.数学期望】若,求,的期望值。
16。 离散型随机变量的方差:
17。 二项分布
【例】:次品率为0.05 (1)从中抽取10个1个为次品,其余为正品
(2)10个中有1个正品,第2个为次品,其余为正品的概率P(概率)
(3)10个中有2个次品[次品位置固定时前两个为]
X=K 表示做几次试验,有K次出现的概率为多少。
二项颁布率为X~B(n、p)
二项颁布期望值E(X)= np 方差D(X)= np(1—p)
18. 泊松公布:X~P() 单位时间内某事件出现的次数
e为自然数=2。71828
当n很大并且P很小时,可以利用泊松分布来近似地计算二项分布。
泊松分布特征值:E(X)=(期望值) 标准差 D(X)=
【例。泊松分布】某大学计算机中心有计算机80台,各台工作是相互独立的,发生故障的概率都是0。01,假设一台计算机的故障可由一个维护人员来处理,问至少需配备多少维护人员,才能保证计算机发生故障但不能及时维修的概率小于0.01.
解:设需配备N人,用X表示同一时刻发生故障的计算机台数,则X—-—B(80,0。01),我们要确定使P(X≤N)≥0。99的最小的N。N应满足即
1—查表得满足上式的最小的N是3,即至少应配备3个维护人员。
19。连续型随机变量的数学期望值和方差
若已知E(x), 计算E(a+bx)=a+bE(x) 方差:若已知D(x),计算D(a+bx) = b2D(X)
所有变量值减去期望值为0。 X除以标准差的方差为1。
【例。连续型随机变量的数学期望和方差】某人估计她家八月份的电费(元)由下式决定:X=28。5+0。6C 其中C是八月份的平均温度(单位:C),它是均值为34.2,标准差为2。2的连续型随机变量,求该人家八月份的平均电费以及标准差.
解:该人家八月份的平均电费为:E(X)=28。5+0.6E(C)=28。5+0.6*34。2=49.02(元)
其标准差为σx=√σ2==0.6*2。2=1.32
20。 决策的准则:(1)极大极小原则(悲观准则).(2)最大期望收益原则.(3)最小期望机会损失原则(机会损失).
21. 决策的三个基本要素:(1)要找出决策方案(两个以上).(2)找出自然状态(无法控制的)。(3)收益值和损失值(找出不同方案在不同自然状态下的收益值和损失值)。
22. 总体均值的估计:(总体均值);(总体比例);
(两个总体均值之差);(总体比例差)
一、总体分布方差σ2已知,用Z代表大样本
重复抽样; 不重复抽样.
的置信度为90%时,=1.645
的置信度为95%时,=1.96
置信度为95。45%时,=2
置信度为99.73%时,=3
二、总体正态分布、方差未知、大样本
重复抽样;不重复抽样
【例。置信区间】某汽车租赁公司欲估计全年每个租赁汽车的顾客每次租赁平均行驶的里程。由于全年汽车租赁量很大,随机抽取了200个顾客,根据记录计算平均行驶里程X=325公里,标准差s=60公里。试估计全年所有租赁汽车每次平均行驶里程的置信区间。置信水平分别为(1)0.90,(2)0.95。
解:由于样本量n=200为大样本,故的抽样分布为正态分布,的标准差的估计值为==4.2426
(1) 置信度为90%时,=1。645,由公式,置信区间为=3251。645(4.2426)=3256.98,为318。02公里至331.98公里之间.
(2) 置信度为95%时=1.96,u的置信区间为3251。96(4.2426)=3258。32。
【例.置信区间】某药厂在生产过程中改换了一种新的霉素,测定了36批产品的产出率与理论产出率的比值:
1.28 1.31 1。48 1。10 0.99 1。22 1。65 1.40 0。95 1。25 1.32 1。23 1。43 1.24 1.73 1.35 1。31 0.92 1.10 1.05 1。39 1。16 1.19 1.41 0。98 0。82 1.22 0.91 1.26 1.32 1.71 1。29 1.17 1.74 1.51 1。25
要求:(1)计算这一比值95%的置信区间;(2)得出上述结论时作出了什么假设;(3)能否以95%的置信水平说明新霉素的产出率提高了。
解:(1)计算得到=1.268 s=0。228,置信度为95%时=1.96,故置信区间为=1.2681。96()得1。194﹤u﹤1。342.
(3) 假设36批的样品是随机的。
(4) 说明新的霉素的产出率提高了,因为置信下限已超过1.
23。 总体正态分布、方差未知、小样本
重复抽样;不重复抽样。
【例。置信区间】为研究独生子女的每月零花钱,从某小学随机抽取了20个独生子女的家庭,得到=107,s=40,试以95%的置信度估计该校独生子女小学生家庭平均每月零花钱的置信区间。
解:因为t分布适用于正态总体,因此研究这一问题应首先假设独生子女家庭的子女零花钱应服从正态分布,在小样本、总体方差未知用S2代替时,~t(n-1),由公式其置信区间为:==(88.3~125.7元)
24. 假设检验的基本思想—-小概率原理;接受域和拒绝域—若在小概率范围的区域
【例】:<-n,>n(0.27内) 称<—n,>n为拒绝域;显著水平=〉α—原假设为真的,但我们却错误地拒绝了它,而这种可能性是多少?就是显著水平α(也就是小概率原理)
25。 假设检验中两类错误:弃真错误——同第五点α 取伪错误——样本本是假的β
弃真错误减少则取伪错误增加=〉 两者成反比 我们只能控制“弃真错误”
26。 原假设和备择假设
H0:u=u0 H1:u≠u0 拒绝域两边
H0:u≥u0 H1:u<u0 拒绝域左边
H0:u≤u0 H1:u>u0 拒绝域右边
=〉①等号一定在原假设上;②(单侧检验);③一般把希望拒绝的假设放在原假设中(对立方不一样),(拒绝的错误,就是弃真错误,更直观地知道)在中立立场上,把可能拒绝的放在原假设中。 三种形式,希望拒绝;可能拒绝;
27. 相关关系定义--变量间的关系
—函数关系:一个变量决定了另外一个变量,是确定的完全严格的
—相关关系:两者间有关系,一个变量不是完全由另外一个变量确定的(受其它因素的影响)
28。 相关关系表现形态(相关关系的类型)
线性相关:变量这间的关系近似地表现为一条直线
非线性相关:变量之间的关系近似地表现为一条曲线
正相关:两个变量同一方向变动
负相关:两个变量相反方向变动
29。 回归模型: 回归方程: E(∑)=0
估计的回归方程 估计值为;为;为
30。(1)最小二乘法;
回归方程参数含义: 几何意义:b0——截距;b1——斜率. 经济意义:b1——回归系数
【例。最小二乘法】
收入(x)每增加100元,储蓄额(y)平均增加0.3777万元,(x每变动一个单位,y平均变动的数值)
B与r(相关系数)的关系:b1>0时,x、y为正相关,斜方差为正
b1<0 时,x、y为负相关,斜方差为负
31. 回归方程拟合程度的分析:
(SST)总变差平方和=回归平方和SSR+剩余平方和SSE
1、判定系数:
判定系数取值0≤R2≤1,判定系数越大,拟合程度越高 R2=1.
32. 回归方程线性关系检验:
第一步:确定存假设H0,不存在线性关系。H1:存在线性关系。
第二步:F=(SSR/1)/[SSE/(n-2)]~F(1,n—2)
第三步:确定显著性水平,α,F2(1,n—2)
第四步:F1>F2(1,n-2)拒绝原假设。
33。 多元线性回归回归方程:
估计回归方程:
34。 一元线性回归方程中R2=r2 r相关系数,b1回归系数,R2判定系数,cov协方差。
反相等量之间相关方向:r、b1、cov 反相等量之间相关方向:r、R2
35. 时间数列分析:①绝对数的时间数列,反应总规模总水平(时期指标可相加;时点指标不可相加);②平均类的时间数列,反应一般水平;③相对数的时间数列
36。 间隔不等:
37。 相对数、平均数序时平均数a:y=a/b;b:.
38。 增长量=报告期水平-基期水平 逐期增长: 累计增长:
关系:逐期增长量等相应时期的累计增长量,
相邻两时期累计增长量之差=逐期增长量
39。 平均增长量=
40. 发展速度=报告期的水平÷基期水平×100%
环比=本期÷上期×100%;定基=报告期的水平÷固定时期水平×100%
说明:环比发展速度的连乘积=相应时期的定基发展速度
41. 平均发展速度
①几何平均(水平)法:(n指发展的次数)
应用条件:从基期水平出发达到未期的水平,
②累积法(方程式法) 平均增长速度=平均发展速度-1
eg: 01 02 03 04
8% 7% 8% 9%
42. 时间数列构成要素:长期趋势T、季节变动S (周期固定,周期短)、循环变动C(经济周期→宏观)周期不固定,周期长)、不规则变动I
两种模式:Y=T×S×C×I(乘法模式);Y=T+S+C+I(加法模式)
43.季节指数(S)=同月(季)平均数/总月(季)平均数*100%
44。指数的性质:相对性(个体指数、时间性指数、区域性指数)、综合性、平均性。
45.总量指数:由两个不同时期的总量对比形成的相对数.V1/0=p1q1/p0q0。
展开阅读全文