资源描述
(完整word)文科概率与统计基础知识
概率与统计
一、统计
1.三种抽样方法的比较
类别
共同点
特点
相互联系
适用范围
简单随机抽样
①抽样过程中每个个体被抽到的可能性相等;②每次抽出个体后不再放回,即不
放回抽样。
从总体中逐个抽
取.
总体个数较少.
系统抽样
将总体平均分成几部分,按预先制定的规则在各
部分中抽取1个个体.
系统:在起始部分取样时,采用简单随机抽样,其余部分等距抽。
分层:各层抽样时,采用简单随机抽样或系统抽样(层的容量大时可用系统抽样).
总体个数较多.
分层抽样
将总体分成几层,按各层个体
数之比抽取.
总体由差
异明显的几部分组成。
2.常用的统计图表:一“表”(频率分布表);两“图"(频率分布直方图和茎叶图)
(1)频率分布直方图
①小长方形的面积=组距×=频率;
②各小长方形的面积之和等于1;
③小长方形的高=,所有小长方形的高的和为.
【注意】直方图的纵轴(小长方形的高)一般是频率除以组距的商(而不是频率),横轴一般是数据的大小,小长方形的面积表示频率.
(2)茎叶图
在样本数据较少时,用茎叶图表示数据的效果较好.
3.用样本的数字特征估计总体的数字特征
(1)众数、中位数、平均数
数字特征
样本数据
频率分布直方图
众数
出现次数最多的数据
取最高的小长方形底边中点
的横坐标
中位数
将数据按大小依次排列,处在最中间位置的一个数据(或最中间两个数据的平均数)
把频率分布直方图划分成左右两个面积相等的分界线与
轴交点的横坐标
平均数
样本数据的算术平均数
每个小长方形的面积乘以小长方形底边中点的横坐标之
和
(2)平均数.
方差.
标准差.
【提醒】标准差、方差越大,数据的离散程度越大,越不稳定.
4. 变量间的相关关系
知识点分析
1、线性回归方程:(叫做解释变量,叫做预报变量)
线性回归方程系数公式:
( 公式说明:回归直线过样本的中心点 ,也就是平均值点.)
2、相关系数公式
3、几个结论:
(1)回归直线过样本的中心点。
(2)b〉0时,y与x正相关,散点图呈上升趋势;b<0时,y与x负相关,散点图呈下降趋势。
(3)斜率b的含义(举例):
如果回归方程为y=2。5x+2, 说明x增加1个单位时,y平均增加2.5个单位;
如果回归方程为y=-2。5x+2,说明x增加1个单位时,y平均减少2。5个单位。
(4)相关系数表示变量的相关程度。 范围:,即
越大,相关性越强。时,y与x正相关;时,y与x负相关。
(5)相关指数表示模型的拟合效果.范围:
越大,拟合效果越好,(这时:残差平方和越小,残差点在带状区域内的分布比较均匀,带状区域宽度越窄,拟合精度越高).
表示解释变量对于预报变量变化的贡献率。
例如:,表明“解释了64%的变化”,或者说“的差异有64%是由引起的"。
(6)线性回归模型 , 其中叫做随机误差。(是由和共同确定的)
二、概率
1.概率的五个基本性质
(1)随机事件的概率:0≤≤1.
(2)必然事件的概率为1.
(3)不可能事件的概率为0.
(4)如果事件与事件互斥(不可能同时发生),则.
(5)如果事件与事件互为对立事件(不会同时发生,但一定有一个发生),那么,即.
对立必互斥,互斥未必对立.
2.古典概型
(1)特点:①有限性,②等可能性.
(2)概率公式:.
3.几何概型
(1)特点:①无限性,②等可能性.
(2)概率公式:.
三、独立性检验
(一)知识点分析
1、 2×2列联表:统计被调查者的两种状态,每种状态又分两种情况的调查结果表。对于性别变量,其取值为男和女两种,这种变量的不同值表示个体所属的不同类别,像这类变量称为分类变量.
2、卡方统计量:为了研究事件X与Y的关系,经调查得到一张2×2列联表,如下表所示:
Y1
Y2
合计
X1
a
b
a+b
X2
c
d
c+d
合计
a+c
b+d
n=a+b+c+d
独立性检验原理:也叫假设性检验(类似反证法原理),一般情况下,假设分类变量X和Y之间没有关系,通过计算值,然后查表对照相应的概率P,发现这种假设正确的概率P很小,从而推翻假设,最后得出X和Y之间有关系的可能性为(1-P),也就是“X和Y有关系”。(表中的就是的观测值,即)
统计量(读做“卡方”),它的表达式是:
独立性检验临界值表
P(k2〉k)
0.50
0.40
0.25
0.15
0。10
0.05
0。025
0。010
k
0。455
0.708
1。323
2。072
2.706
3。841
5。024
6.635
(表中的K是理论值,是实际观测值,越大,说明变量间越有关系)
(二)独立性检验举例
例1、某高校“统计初步”课程的教师随机调查了选该课的一些学生情况,具体数据如下表:
非统计专业
统计专业
男
13
10
女
7
20
为了检验主修统计专业是否与性别有关系,根据表中的数据,查对临界值
P(k2>k)
0。10
0.05
0。025
0。010
k
2.706
3.841
5.024
6.635
根据表中数据,得到。所以有 的把握认为主修统计专业与性别有关系。
例2、某电视台在一次对收看文艺节目和新闻节
目观众的抽样调查中,随机抽取了100名电视观
众,相关的数据如表所示:
(1)由表中数据分析,收看新闻节目的观众是
否与年龄有关?
(2)用分层抽样方法在收看新闻节目的观众中随机抽取5名,大于40岁的观众应该抽取几名?
(3)在上述抽取的5名观众中任取2名,求恰有1名观众的年龄为20至40岁的概率。
独立性检验临界值表
P(k2〉k)
0.10
0.05
0.025
0.010
k
2.706
3.841
5.024
6.635
参考公式与数据:
展开阅读全文