资源描述
轻松学统计(3)
作者:张忠朴
1.学以致用
第三次上课的进度是『统计的推定』,以前作菜鸟老师时,一上课一定先正经八百的在黑板上先写下这五个字,这是什么东东?学生暗自滴咕,这一滴咕教室的气氛马上凉了一半,等到学生们的学习热情被浇熄之后,才再来冷灶热烧,那就累了。
教书教久了,才体会到一上课最好先把场子炒热,这样教到主题才会事半功倍,所以先丢个可以暖场的问题给他们。
『你们知不知道在美国统计专家密度最高的城市是那一个?』
???!!!大家既有兴趣却又茫然。
『猜猜看嘛!』试着再鼓励他们
『老师,可不可以给一点提示?』又开始讨价还价了。
『好,那个城市在沙漠之中,虽然不大但国际驰名』
『是不是拉斯维加斯?』马上有人兴奋抢答。
『答对了,但是为什么那个鸟不生蛋的地方会吸引一票统计专家呢?』
『是不是和赌有关?』
『对!但是赌和统计有什么关系呢?』
『如果能设计一种游戏让大家都认为自己很容易赢,那就会吸引一票傻蛋。』
『没错,那些在赌城的统计专家,其实就是专门帮赌场设计那些表面看起来吸引力十足,但事实上庄家最后必赢的游戏,由此可见统计并不只是艰深的理论,它更可以应用在生活之中,所以今天就让我们来想一想如何将统计用在工厂之中好吗?』
『好!』大家都显得兴奋莫名,这十足表现了中国人见赌心喜的本性。
『那你们认为在工厂中会赌那些事呢?』
『赌“席芭啦”!』这个回答马上引起全班哄堂大笑。
『赌“席芭啦”,你疯啦!工厂不但不感激你还会开除你,如果你不想被开除那么还是趁早赌点正经的。』
再逼着刚才那位捣蛋鬼把聪明用上正途,他把手上的原子笔当作竹蜻蜒转了两圈之后,若有所悟──
『在生管单位决定发料数量时,他们是不是会先赌一下这批产品的良品率?』
『没错,这是正经赌法之一,但是统计还有没有其它的用途呢?』同学又陷入了沈思,沉思后有人灵光一闪──
『老师,会不会有的公司要赌一下产品出厂后的平均使用寿命,以免将来客户抱怨连连?』
『太棒了,这件事不但要赌,而且还要算的非常精确,不然很可能就会大祸临头,归纳刚才两位同学的想法,我们可以发现一个共同点,那就是他们都在想一个如何用统计来作预测的问题,这种用统计来作预测的问题,术语就叫做“推定”(Estimation)』。
2.未卜先知
『在统计应用上,推定占了一席非常重要的地位,尤其像在订货生产的公司,如果生管无法推定出报废率来作发料宽放的依据,那么不是会造成无效良品的麻烦,就是会搞出数量不足延误出货的飞机,前者会造成资金的浪费,后者会引起客户的抱怨,都很糟糕的事,为了不要将来倒霉,所以让我们现在就来学推定好不好?』
『好!』学生的眼睛慢慢亮了起来,但是我却反而不想马上让他们如愿以偿,因为Easy Coming, Easy Go本来就是教学大忌。所以决定先拿一个问题来钓他们──
『请问推定和凭空瞎猜有什么不同?』
『凭空瞎猜可以毫无根据,但是推定可能需要严谨一点』
『请问您说严谨是什么意思?』
『就是说推定的值要先有一些根据』
『你的意思是不是说,被推定的未知状况必须要先根据一些看得见的己知结果而来?』
『对!我就是这种想法』
『好极了,刚才这位同学的想法其实就是推定的起点,任何推定都必须先根据一些样本的数据来作推衍的基础,我们不妨先来看一个例子』
某公司希望能预测其产品厚度之范围,试问应如何下手?及考虑那些因素?
假设已量测25个成品,其厚度分别为(单位:mm):
53 48 54 51 48
52 46 50 51 49
47 55 52 53 47
51 50 50 48 52
50 48 52 49 47
参考此数据在若95%的把握下,请问该公司成品平均厚度在何范围内?
『现在我们有了25组数据,那么请问下一步我们该怎么办?』
『计算』他们已很清楚的了解统计就是数据透过计算产生出有意的情报。
『没错,此例经过计算之后我们得到= 50.12 σ= 2.403
接下来下一步该怎么辨呢?』
『老师,下一步是不是就要回答95%的产品厚度范围有多宽了?』
『没错,但是这该如何推测』
『老师,如果您能够告诉我们95%的产品被含盖在几个σ之内,我们就可以推测出它的范围』
利害!利害!这个学生不但学会了用反问法来脱身这一招,而且反问的还是一个命中要害的问题,但是老姜当然自有辣法,所以仍要四两拨千金一下──
『这位同学的想法的确很高明,他的想法是机率和多少个σ之间一定会有关系,而且彼此一定可以换算,这个想法其实就是常态分配机率论的基础,因此现在让我们来看一下常态分配机率表(如附表一),这个表的纵轴是到小数点第一位的σ个数值,横轴则是小数点第二位的σ个数值,而表内的数字就是图中斜线区的机率,现在请大家一起来想一想95%的产品应含盖在多少个σ之内?』
同学们纷纷努力思索,个个都想拔头筹,结果居然还是刚才反问我的学生找到了答案。
『老师,是1.96个σ』他与奋的大叫。
『没错,但是您是如何找到的呢?』
『老师,我先算出斜线的机率是2.5%也就是0.025,然后我就查表.......』
『等一下』我先打断他的话,『能不能请你先说明一下0.025的来龙去脉?』
『老师,因为这个题目要预测的范围95%,而斜线区正代表此范围之外的机率,因此两边斜线区加起来的机率应该是5%(100% - 95%),而如果我们假设左右斜线区各占一半,那么单一斜线区的机率,就是2.5%也就是0.025』
『很好,然后呢?』
『然后我就先在常态分配机率表中找到0.025这个数字。从这个数字往左看对应的纵轴数字是1.9,而往上对应的横轴数字是6.0,参考老师刚才的说明,我就得到了1.96个σ的答案。』
他一面说明,其它的同学纷纷点头,看到这种感人的场景,我不禁明白其实在学习中导引学生领悟,反而比口沫横飞的填鸭法还更有效呢!
看到学生都若有所悟,这时该给他们更大的成就感,『既然,大家都已明白95%的产品是被含盖在±1.96个σ之内,所以我们现在可以更确实地回答原来的问题了吗?』
『老师,95%产品的平均厚度会落在 50.12 ±1.96x2.403 之间』大家几乎是异口同声地回答了这个在15分钟之前还摸不着头绪的问题,这真是学习的一大兴趣。
3.康庄大道
用实例可以帮助我们走过前人推理的思维过程,但是实例仍然有它的限制性,因此若要能举一反三触类旁通,那就必须在大家明白实例之后,再将其中的精华从表象中抽离出来(这就所谓的抽象),成为一种可以反复运用的模型,因此,必须利用学生破解例子后兴高彩烈的时刻,顺便将他们带入推定的理论模型。
『同学们,你们希望将来无论遇到任何统计推定的问题时都能迎刃而解吗?』
『希望』兴奋的响应。
『那我们来重新整理一下刚才的过程好吗?』
『好!』
『请回想一下,刚才这个过程和我们的第一节统计课有什么关系?』
『老师,整个讨论好象还是延着I→P→O 的过程在进行嘛!』一位平常蛮沈默的同学倒先发言了。
『好极了,这是正确的观察,于是又在黑板上画出了。
I→P→O程序图,只是比以前又多加上三个空的框框
然后,反身问同学
『你们猜老师刚才多加的框框内该填什么?』
『老师,答对了有没有奖品?』教室气氛一好,同学居然会开始撒娇了。
『跟我来这套!当然有奖品啊!答对的,下课时,可以先来擦黑板。』吐嘈回去,反而逗得全班同学大乐。
『请问您还要不要先抢答?』
『老师,如果擦黑板是奖品,那擦黑板也没有关系,我猜第一个框框内应该填“样本值”也就是刚才那个例子中的25个样本的厚度值。』
『答对了,请大家给这位自告奋勇擦黑板的同学掌声鼓励好不好?』热烈的掌声让那位同学好不得意。
『那么第二个框框内该填什么呢?』
马上有同学举手,我故意逗他『你也想来擦黑板啊?』他嘿嘿傻笑,真是老实的可爱,于是帮他解围──
『好,那请你先告诉大家你认为第二个框框内该填什么?』
『该填统计量就是和』连回答都很老实。
『又答对了!』这时同学的掌声己自动响起,真是一群会互相鼓励的学生。
『那第三个框框该填什么呢?』这个问题似乎让有些同学很为难,看到他们痛苦的表情,不免又大动侧隐之心,于是说:『老师也想擦黑板,所以最后一个框框可不可以由老师替大家来回答?』
『老师,没有关系,你替我答,我替你擦黑板』一位同学马上很阿莎力的响应。
『好,那我们一言为定,第三个框框请填“推定结论”也可直接写成“95%的产品厚度在±1.96的范围内”』顺便我又在黑板的另一边写下“推定的步骤”五个大字,然后转身告诉同学──
『刚才三个框框的推理过程其实就是统计推定的步骤。』
然后我转身在黑板上写上:
步骤1. 随机抽取样本
步骤2. 计算统计量(,σ)
步骤3. 作出推定结论,下结论时可再细分成两步骤
步骤3A.决定信赖水准(Level of Confidence ,此例为95%)
步骤3B.决定信赖区间(Confidence interval ,此例即为±1.96σ)
『请各位记得这几个步骤,那么将来无论你们遇到什么推定的问题都可以很容易地迎刃而解了』
『由于各位上课很认真尤其又肯热烈参与讨论,所以我再送各位一套锦囊,好不好?』
『老师,那我也替你来擦黑板』严肃的班长居然也学会幽默了,这下非倾囊相授不可,打开投影机,影幕上出现了──
常用信赖区间与σ个数对照表
信赖水准 含盖σ个数 信赖区间
90% 1.645 ±1.645
95% 1.96 ±1.96
99% 2.575 ±2.575
99.73% 3 ±3
『这张表其实就是从刚才的常态分配机率表上整理出来的,如果将来各位碰上一些特殊的信赖水准,只要回去查表也一定会得到答案的。』
4.精益求精
虽然下课时间快到了,但是看着他们眼眸中的热情,我就舍不得不再多教他们一点,使他们能真正成为善用推定的高手。
『同学们,统计的推定好不好玩啊?』
『粉好玩!』居然有人学董月花。
『粉好玩的事有时候反而粉危险,其中最大的危险就是说不定您的推定会"贡姑",换句话说实际结果与您的推定可能会有很大的出入,请各位想想看,为什么会出现这种状况?』
『老师,会不会是样本有问题?』
『你认为样本可能会出现什么问题?』
『会不会所谓的样本其实不太具有代表性?』
『能不能举例说明?』
『譬如样本是工程师在实验室作出来的,而将来实际大量生产的产品却是由生产线上的作业员生产的,这两者之间有许多不同,不知道这是不是就会造成推定"贡姑"?』
『太好了,这位同学的想法正是推定步骤1在样本抽取上的大忌,像刚才他举的例子,如果我们要推定一般的量产能力,结果却选取了工程师的特制产品来作样本,这种样本就叫做偏差样本(Biased Sample),用已有偏差的样本来作推定,那当然会缪以千里了』
『老师,那我们该怎么办?』
『最具体可行的办法,就是随机抽样(Random Sampling),换言之,以刚才的例子我们其实应该让生产线的所有在制品都有相同被抽中的机会,这样抽出的样本就可称为不偏样本(Unbiased Sample),从不偏样本得到的推论才会具有代表性,这就是统计学家为何一再强调必须随机抽样(Random Sampling)的原因了。』
当大多数同学正陶醉在若有所悟时,却有一位同学狡黠地问了另一个问题──
『老师,偏差样本是推定中唯一的陷阱吗?』
『那你认为呢?』反将他一军。
『我猜应该还有别的。』
『别的又会是什么呢?』再用一次不偾不启的老招。
『刚才老师提到的第一个陷阱是有关样本品质(Quality)的问题,所以我推想可能也有与品质相对的样本数量(Quantity)问题,不知道这种猜测是否合理?』
当一群学生学会思考,而且肯深入思考时,其实他们本来就有机会无师自通的,眼前就是一个最佳例证。
『好极了,你的推论的确有道理,但是能不能再想一想是样本大时推定比较准?还是样本小时推定比较准?』
『当然是样本愈大愈准啰!』
『为什么?』
『因为如果样本量愈来愈大,大到与全部产品一样多时,那么推定结果其实就和实际结果完全一样了嘛!这样当然最准啰!』
他那种无师自通的悟道神情,条条有理的陈述,不禁引爆了全班同学的掌声。
『太好了,推定的精确性(Precision)的确是由样本大小(n)来决定的,但是我们真的能让样本不断加大吗?』
版权所有"寻智专业顾问有限公司"~
『不行!』
『为什么?』
『因为这样成本会愈来愈高。』
『答对了,如果有成本限制而我们又不太希望牺牲推定的精确性,那这就是统计学家所研究的最小样本数的问题,一般如果是用计量值(如上例的厚度)来作推定,那么最小样本数不应小于25(n≧25),是一个应该被遵循的游戏规则。』
下课钟声正好又在高潮中响起,这次学生倒没有匆匆赶出教室,有几位反倒跑上讲台来抢擦黑板,这真是一群可爱的学生。
『黑板要擦的粉干净才可以下课哦!』故意再开个玩笑来表达对这群可爱学生的欣喜。
~版权所有"寻智专业顾问有限公司"~
展开阅读全文