资源描述
第五章 参数估计和假设检验的Stata实现
本章用到的Stata命令有
可信区间计算
立即命令为
正态分布: cii 样本量 样本均数 样本标准差
率: cii 样本量 阳性数
Poisson分布均数: cii 观察单位数 观察值,p
原始数据的命令
正态分布:ci 变量
二项分布:ci 变量,b
假设检验
均数的检验 :
立即命令为:
ttesti 样本量 样本均数 样本标准差 (待检验的总体均数)
原始数据的命令:
ttest 变量名 =
例5-1 随机抽取某地25名正常成年男子,测得其血红蛋白含量如下:
146
139
153
138
137
125
142
134
133
122
137
128
140
137
139
128
131
158
138
151
147
144
151
117
118
该样本的均数为137.32g/L,标准差为10.63g/L,求该地正常成年男子血红蛋白含量总体均数的95%可信区间。
数据格式为
x
1
146
2
139
3
153
4
138
5
137
6
125
7
142
8
134
9
133
10
122
11
137
12
128
13
140
14
137
15
139
16
128
17
131
18
158
19
138
20
151
21
147
22
144
23
151
24
117
25
118
计算95%可信区间的Stata命令为:
ci x
计算95%可信区间
结果为
Variable | Obs Mean Std. Err. [95% Conf. Interval]
-------------+---------------------------------------------------------------
x | 25 137.32 2.126594 132.9309 141.7091
该地正常成年男子血红蛋白含量总体均数的95%可信区间为(132.93~141.71)
例5-2 某市2005年120名7岁男童的身高=123.62(cm),标准差s=4.75(cm),计算该市7岁男童总体均数90%的可信区间。
在Stata中有即时命令可以直接计算仅给出均数和标准差时的可信区间。
cii 120 123.62 4.75,level(90)
结果为:
Variable | Obs Mean Std. Err. [90% Conf. Interval]
-------------+---------------------------------------------------------------
| 120 123.62 .4336137 122.9012 124.3388
该市7岁男童总体均数90%的可信区间(122.90~124.34)。
例5-3 为研究铅暴露对儿童智商(IQ)的影响,某研究调查了78名铅暴露(其血铅水平≥40mg/100ml)的6岁儿童,测得其平均IQ为88.02,标准差为12.21;同时选择了78名铅非暴露的6岁儿童作为对照,测得其平均IQ为92.89,标准差为13.34。试估计铅暴露的儿童智商IQ的平均水平与铅非暴露儿童相差多少,并估计两个人群IQ的总体均数之差的95%可信区间。
本题也可以应用Stata的即时命令:
ttesti 78 92.88 13.34 78 88.02 12.21
结果:
Two-sample t test with equal variances
------------------------------------------------------------------------------
| Obs Mean Std. Err. Std. Dev. [95% Conf. Interval]
---------+--------------------------------------------------------------------
x | 78 92.88 1.510458 13.34 89.87229 95.88771
y | 78 88.02 1.38251 12.21 85.26707 90.77293
---------+--------------------------------------------------------------------
combined | 156 90.45 1.039008 12.97721 88.39756 92.50244
---------+--------------------------------------------------------------------
diff | 4.86 2.047637 .8149179 8.905082
------------------------------------------------------------------------------
差值为4.86,差值的可信区间为0.81~8.90。
例5-4 为研究肿瘤标志物癌胚抗原(CEA)对肺癌的灵敏度,随机抽取140例确诊为肺癌患者,用CEA进行检测,结果呈阳性反应者共62人,试估计肺癌人群中CEA的阳性率。
Stata即时命令为
cii 140 62
结果为
-- Binomial Exact --
Variable | Obs Mean Std. Err. [95% Conf. Interval]
-------------+---------------------------------------------------------------
| 140 .4428571 .0419808 .3590149 .5291687
肺癌人群中CEA的阳性率为44.28%,可信区间为35.90%~52.82%。
例5-5 某医生用A药物治疗幽门螺旋杆菌感染者10人,其中9人转阴,试估计该药物治疗幽门螺旋杆菌感染者人群的转阴率。
Stata即时命令为
cii 10 9
结果为
-- Binomial Exact --
Variable | Obs Mean Std. Err. [95% Conf. Interval]
-------------+---------------------------------------------------------------
| 10 .9 .0948683 .5549839 .9974714
例5-6 某市区某年12个月发生恶性交通事故的次数分别为:
5, 4, 6, 12, 7, 8, 10, 7, 6, 11, 3, 5
假设每个月恶性交通事故的次数服从Poisson分布,试估计该市平均每个月恶性交通事故的次数的95%可信区间。
将1个月视为一个单位时间,因Poisson分布具有可加性,我们先计算12个单位时间内平均脉冲数估计值及其95%可信区间。
X=5+4+6+12+7+8+10+7+6+11+3+5=84
由于在12个单位时间内总的发生次数为84,所以可以用
cii 12 84,poisson
得到结果:
-- Poisson Exact --
Variable | Exposure Mean Std. Err. [95% Conf. Interval]
-------------+---------------------------------------------------------------
| 12 7 .7637626 5.583477 8.666438
例5-7 续例3-4。从某纯净水生产厂家生产的矿泉水中随机取1升水样,检出3个大肠菌群。试估计该家生产的矿泉水中每升水中大肠杆菌数的95%可信区间。
Stata的命令为:
cii 1 3,poisson
结果为:
-- Poisson Exact --
Variable | Exposure Mean Std. Err. [95% Conf. Interval]
-------------+---------------------------------------------------------------
| 1 3 1.732051 .6186721 8.767273
例5-8 大规模调查表明正常成年女子的双耳在4kHz频率时的纯音气传导听阈值平均为15dB。为研究纺机噪声对纺织女工的听力是否有影响,随机调查了20名工龄在2年以上的纺织女工,测得其听阈值(dB)如下:
10 11 12 13 14 14 16 17 18 18
18 18 19 20 20 23 22 23 24 26
研究者的问题是:纺织女工的听阈值是否与正常成年女子不同?
Stata数据格式为:
x
1
10
2
11
3
12
4
13
5
14
6
14
7
16
8
17
9
18
10
18
11
18
12
18
13
19
14
20
15
20
16
23
17
22
18
23
19
24
20
26
H0:m =m0, H1:m≠m0。
即 H0:m =15(dB), H1:m≠15(dB)。
Stata命令为:
ttest x=15
结果为:
One-sample t test
------------------------------------------------------------------------------
Variable | Obs Mean Std. Err. Std. Dev. [95% Conf. Interval]
---------+--------------------------------------------------------------------
x | 20 17.8 1.006819 4.502631 15.6927 19.9073
------------------------------------------------------------------------------
mean = mean(x) t = 2.7810
Ho: mean = 15 degrees of freedom = 19
Ha: mean < 15 Ha: mean != 15 Ha: mean > 15
Pr(T < t) = 0.9940 Pr(|T| > |t|) = 0.0119 Pr(T > t) = 0.0060
统计量t=2.7810,Pr(|T| > |t|) = 0.0119,所以可以拒绝H0,可以认为纺织女工与正常成年女子的平均听阈值的差异有统计学意义。
展开阅读全文