资源描述
数分大作业
第3题:基本统计分析3利用居民储蓄调查数据,从中随机选取85%的样本,进行频数分析,实现以下分析目标:
1. 分析储户一次存款金额的分布,基本描述统计量,并对城镇储户和农村储户进行比较;
2.分析不同年龄的储户对什么合算的认同是否一致。
3.检验城镇储户的一次存款金额的均值为5000元, 是否可信?
• 利用居民储蓄调查数据,从中随机选取85%的样本,进行频数分析,实现以下分析目标:
• 基本思路:首先通过随机抽样中的近似抽样方式,对居民储蓄调查数据进行抽样。
• 操作步骤:选择菜单→数据→选择个案→随机个案样本,样本尺寸填大约所有个案85%
•
1. 分析储户一次存款金额的分布,基本描述统计量,并对城镇储户和农村储户进行比较;
基本思路:
(1)由于存(取)款金额数据为定距型变量,直接采用频数分析不利于对其分布形态的把握,因此考虑依据第三章中的数据分组功能对数据分组后再编制频数分布表。
(2)进行数据拆分,并分别计算城镇储户和农村储户的一次存(取)款金额的四分位数,并通过四分位数比较两者分布上的差异。
操作步骤:转换→重新编码为不同变量→选择存(取)款金额,输出变量名称填存款金额分组,单击旧值和新值,对数据进行分组,分为0-500、501-2000、2001-3500、3501-5000、5000以上五个组。最后点击确定。再分析→描述统计→频率→变量:存款金额分组,图表选择直方图,选择显示正态曲线。
步骤:数据→拆分文件→分组方式:户口→确定。分析→描述统计→频率→统计量→四分位数前打勾→确定。
存款金额分组
频率
百分比
有效百分比
累积百分比
有效
1.00
87
35.4
35.4
35.4
2.00
76
30.9
30.9
66.3
3.00
14
5.7
5.7
72.0
4.00
20
8.1
8.1
80.1
5.00
49
19.9
19.9
100.0
合计
246
100.0
100.0
统计量
存款金额分组
城镇户口
N
有效
177
缺失
0
百分位数
25
2.0000
50
3.0000
75
5.0000
农村户口
N
有效
69
缺失
0
百分位数
25
1.5000
50
3.0000
75
3.0000
存款在500以下所占百分比最大,有35.4%,其次是500-1000的人数。而存款在5000以上的也有19.9%,说明存款数额悬殊较大。
从输出图表中看出城镇储户较农村储户有两倍之多,可能是因为城镇居民比较富裕而且存款意识比较强。农村户口的居民可能更愿意把钱藏在家里而不是拿到银行去存。
2. 分析不同年龄的储户对什么合算的认同是否一致。
基本思路:该问题列联表的行变量为年龄,列变量为什么合算,在列联表中输出各种百分比、期望频数、剩余、标准化剩余,显示各交叉分组下频数分布柱形图,并利用卡方检验方法,对不同年龄的储户对什么合算的认同是否一致进行分析.
操作步骤:分析→描述统计→交叉表,显示复式条形图前打勾,行选择年龄,列选择什么合算,统计量选择卡方,点击单元格,在观察值、期望值、行、列、总计、四舍五入单元格计数前打勾,最后确认。
卡方检验
值
df
渐进 Sig. (双侧)
Pearson 卡方
3.997a
3
.262
似然比
3.986
3
.263
线性和线性组合
3.337
1
.068
有效案例中的 N
246
a. 2 单元格(25.0%) 的期望计数少于 5。最小期望计数为 .77。
分析:因为卡方值小于0.05拒绝原假设,认为行列变量之间相关,年龄对什么合算的认同有影响,说明不同年龄的储户对什么合算的认同不一致.
3.检验城镇储户的一次存款金额的均值为5000元, 是否可信?
单个样本统计量
户口
N
均值
标准差
均值的标准误
城镇户口
存(取)款金额
177
4871.11
9643.647
724.861
农村户口
存(取)款金额
69
4517.45
14528.340
1749.007
单个样本检验
户口
检验值 = 5000
t
df
Sig.(双侧)
均值差值
差分的 95% 置信区间
下限
上限
城镇户口
存(取)款金额
-.178
176
.859
-128.887
-1559.42
1301.65
农村户口
存(取)款金额
-.276
68
.783
-482.551
-3972.64
3007.54
由上表可知, 城镇储户的一次存款金额的均值为5000元, 不可信.
第5题:方差分析2某电器公司想知道某产品销售量与销售方式及销售地点是否有关,根据近2个月的情况得到下表的数据,以0.05的显著性水平进行检验:
(1)给出SPSS数据集的格式(列举前4个样本即可);
(2)销售方式对销售量的影响;
(3)销售方式和销售地点以及它们的交互作用对销售量的影响。
• 某电器公司想知道某产品销售量与销售方式及销售地点是否有关,根据近2个月的情况得到下表的数据,以0.05的显著性水平进行检验:
(1)给出SPSS数据集的格式(列举前4个样本即可);
(2)销售方式对销售量的影响;
(3)销售方式和销售地点以及它们的交互作用对销售量的影响。
基本思路:本道题重点考察我们对于在SPSS 应用过程中对于方差分析的应用情况。先将这组数据输入SPSS,然后进行两个方面的计算:单因素方差分析和多因素方差分析。利用SPSS的非必须功能,从而得出它们的方差数据,进而进行分析和结果的得出。
(1)操作步骤:分别定义分组变量A(方式)、X(销售量)、B(地区),
在变量视图与数据视图中输入表格数据
(2)销售方式对销售量无显著性影响
操作步骤:分析-比较均值-单因素ANOVA-因变量列表:收率,因子列表
单因素方差分析
X
平方和
df
均方
F
显著性
组间
1221.300
3
407.100
13.244
.000
组内
1106.600
36
30.739
总数
2327.900
39
结果分析:显著性<0.05说明拒绝原假设(销售方式对销售量无显著性影响),证明销售方式对销售量有显著性影响。
(3)操作步骤:分析-一般线性模型-单变量-因变量:收率,固定因子
主体间效应的检验
因变量: X
源
III 型平方和
df
均方
F
Sig.
校正模型
2211.900a
19
116.416
20.072
.000
截距
269288.100
1
269288.100
46428.983
.000
A
1221.300
3
407.100
70.190
.000
B
269.650
4
67.412
11.623
.000
A * B
720.950
12
60.079
10.358
.000
误差
116.000
20
5.800
总计
271616.000
40
校正的总计
2327.900
39
a. R 方 = .950(调整 R 方 = .903)
根据图可知,因子A和B是显著地,方差分析可以很好的去辨别两个事物之间存在联系的紧密性。
7.以高校科研研究数据为例,建立回归方程研究
以课题总数X5为被解释变量,解释变量为投入人年数X2、投入科研事业费X4、专著数X6、论文数X7。
解释变量采用(强制)进入策略,对回归方程和回归系数的显著性检验结果进行解释分析,并给出最终的回归模型(a=0.05) 。
以高校科研研究数据为例,建立回归方程研究
• 以课题总数X5为被解释变量,解释变量为投入人年数X2、投入科研事业费X4、专著数X6、论文数X7。
• 解释变量采用(强制)进入策略,对回归方程和回归系数的显著性检验结果进行解释分析,并给出最终的回归模型(a=0.05) 。
• 步骤:菜单 分析 回归 线性。统计量选择回归系数估计,置信区间95%
•
模型汇总
模型
R
R 方
调整 R 方
标准 估计的误差
1
.966a
.933
.923
232.3360
a. 预测变量: (常量), 论文数, 投入科研事业费(百元), 专著数, 投入人年数。
Anovaa
模型
平方和
df
均方
F
Sig.
1
回归
19673329.276
4
4918332.319
91.114
.000b
残差
1403480.724
26
53980.028
总计
21076810.000
30
a. 因变量: 课题总数
b. 预测变量: (常量), 论文数, 投入科研事业费(百元), 专著数, 投入人年数。
•
系数a
模型
非标准化系数
标准系数
t
Sig.
B
标准 误差
试用版
1
(常量)
-55.267
75.625
-.731
.471
投入人年数
.571
.106
1.113
5.367
.000
投入科研事业费(百元)
.003
.002
.231
1.611
.119
专著数
-.282
.267
-.177
-1.058
.300
论文数
-.051
.043
-.203
-1.184
.247
a. 因变量: 课题总数
由表可知常量0.471>0.05,0.119>0.05,0.300>0.05,0.247>0.05,故他们不能通过方程的显著性检验。课题总数=0.571*投入人年数
把回归方程写出来
•
5 / 5
展开阅读全文