1、第五章 参数估计和假设检验的Stata实现 本章用到的Stata命令有 可信区间计算 立即命令为 正态分布: cii 样本量 样本均数 样本标准差 率: cii 样本量 阳性数 Poisson分布均数: cii 观察单位数 观察值,p 原始数据的命令 正态分布:ci 变量 二项分布:ci 变量,b 假设检验 均数的检验 : 立即命令为: ttesti 样本量 样本均数 样本标准差 (待检验的总体均数) 原始数据的命令: ttest 变量名 = 例5-1 随机抽取某地25名正常成年男子,测得其血红蛋白含量如下: 146 139
2、153 138 137 125 142 134 133 122 137 128 140 137 139 128 131 158 138 151 147 144 151 117 118 该样本的均数为137.32g/L,标准差为10.63g/L,求该地正常成年男子血红蛋白含量总体均数的95%可信区间。 数据格式为 x 1 146 2 139 3 153 4 138 5 137 6 125 7 142 8 134 9 133 10 122 11 137 12 128 13 140
3、 14 137 15 139 16 128 17 131 18 158 19 138 20 151 21 147 22 144 23 151 24 117 25 118 计算95%可信区间的Stata命令为: ci x 计算95%可信区间 结果为 Variable | Obs Mean Std. Err. [95% Conf. Interval] -------------+--------------------------------------------------
4、 x | 25 137.32 2.126594 132.9309 141.7091 该地正常成年男子血红蛋白含量总体均数的95%可信区间为(132.93~141.71) 例5-2 某市2005年120名7岁男童的身高=123.62(cm),标准差s=4.75(cm),计算该市7岁男童总体均数90%的可信区间。 在Stata中有即时命令可以直接计算仅给出均数和标准差时的可信区间。 cii 120 123.62 4.75,level(90) 结果为: Variable
5、 Obs Mean Std. Err. [90% Conf. Interval] -------------+--------------------------------------------------------------- | 120 123.62 .4336137 122.9012 124.3388 该市7岁男童总体均数90%的可信区间(122.90~124.34)。 例5-3 为研究铅暴露对儿童智商(IQ)的影响,某研究调查了78名铅暴露
6、其血铅水平≥40mg/100ml)的6岁儿童,测得其平均IQ为88.02,标准差为12.21;同时选择了78名铅非暴露的6岁儿童作为对照,测得其平均IQ为92.89,标准差为13.34。试估计铅暴露的儿童智商IQ的平均水平与铅非暴露儿童相差多少,并估计两个人群IQ的总体均数之差的95%可信区间。 本题也可以应用Stata的即时命令: ttesti 78 92.88 13.34 78 88.02 12.21 结果: Two-sample t test with equal variances ------------------------------------------
7、 | Obs Mean Std. Err. Std. Dev. [95% Conf. Interval] ---------+-------------------------------------------------------------------- x | 78 92.88 1.510458 13.34 89.87229 95.88771 y | 78
8、 88.02 1.38251 12.21 85.26707 90.77293 ---------+-------------------------------------------------------------------- combined | 156 90.45 1.039008 12.97721 88.39756 92.50244 ---------+--------------------------------------------------------------------
9、 diff | 4.86 2.047637 .8149179 8.905082 ------------------------------------------------------------------------------ 差值为4.86,差值的可信区间为0.81~8.90。 例5-4 为研究肿瘤标志物癌胚抗原(CEA)对肺癌的灵敏度,随机抽取140例确诊为肺癌患者,用CEA进行检测,结果呈阳性反应者共62人,试估计肺癌人群中CEA的阳性率。 Stata即时命令为 cii 140 62
10、结果为 -- Binomial Exact -- Variable | Obs Mean Std. Err. [95% Conf. Interval] -------------+--------------------------------------------------------------- | 140 .4428571 .0419808 .
11、3590149 .5291687 肺癌人群中CEA的阳性率为44.28%,可信区间为35.90%~52.82%。 例5-5 某医生用A药物治疗幽门螺旋杆菌感染者10人,其中9人转阴,试估计该药物治疗幽门螺旋杆菌感染者人群的转阴率。 Stata即时命令为 cii 10 9 结果为 -- Binomial Exact -- Variable | Obs Mean Std. Err. [95% Conf. I
12、nterval] -------------+--------------------------------------------------------------- | 10 .9 .0948683 .5549839 .9974714 例5-6 某市区某年12个月发生恶性交通事故的次数分别为: 5, 4, 6, 12, 7, 8, 10, 7, 6, 11, 3, 5 假设每个月恶性交通事故的次数服从Poisson分布,试估计该市平均每个月恶性交通事故的次数的95%可信区间。 将1个月
13、视为一个单位时间,因Poisson分布具有可加性,我们先计算12个单位时间内平均脉冲数估计值及其95%可信区间。 X=5+4+6+12+7+8+10+7+6+11+3+5=84 由于在12个单位时间内总的发生次数为84,所以可以用 cii 12 84,poisson 得到结果: -- Poisson Exact -- Variable | Exposure Mean Std. Err. [95% Conf. Interval
14、] -------------+--------------------------------------------------------------- | 12 7 .7637626 5.583477 8.666438 例5-7 续例3-4。从某纯净水生产厂家生产的矿泉水中随机取1升水样,检出3个大肠菌群。试估计该家生产的矿泉水中每升水中大肠杆菌数的95%可信区间。 Stata的命令为: cii 1 3,poisson 结果为:
15、 -- Poisson Exact -- Variable | Exposure Mean Std. Err. [95% Conf. Interval] -------------+--------------------------------------------------------------- | 1 3 1.732051 .6186721 8.767273 例5-8
16、 大规模调查表明正常成年女子的双耳在4kHz频率时的纯音气传导听阈值平均为15dB。为研究纺机噪声对纺织女工的听力是否有影响,随机调查了20名工龄在2年以上的纺织女工,测得其听阈值(dB)如下: 10 11 12 13 14 14 16 17 18 18 18 18 19 20 20 23 22 23 24 26 研究者的问题是:纺织女工的听阈值是否与正常成年女子不同? Stata数据格式为: x 1 10 2 11 3 12 4 13 5 14 6 14 7 16 8 17 9 18 10 18 11 18 12 18 1
17、3 19 14 20 15 20 16 23 17 22 18 23 19 24 20 26 H0:m =m0, H1:m≠m0。 即 H0:m =15(dB), H1:m≠15(dB)。 Stata命令为: ttest x=15 结果为: One-sample t test ------------------------------------------------------------------------------ Variable | Obs Mean
18、 Std. Err. Std. Dev. [95% Conf. Interval] ---------+-------------------------------------------------------------------- x | 20 17.8 1.006819 4.502631 15.6927 19.9073 ------------------------------------------------------------------------------ mean = me
19、an(x) t = 2.7810 Ho: mean = 15 degrees of freedom = 19 Ha: mean < 15 Ha: mean != 15 Ha: mean > 15 Pr(T < t) = 0.9940 Pr(|T| > |t|) = 0.0119 Pr(T > t) = 0.0060 统计量t=2.7810,Pr(|T| > |t|) = 0.0119,所以可以拒绝H0,可以认为纺织女工与正常成年女子的平均听阈值的差异有统计学意义。






