1、sd Std Dev,Standard Deviation 原则偏差(Std Dev,Standard Deviation) 一种量度数据分布分散限度之原则,用以衡量数据值偏离算术平均值限度。原则偏差越小,这些值偏离平均值就越少,反之亦然。原则偏差大小可通过原则偏差与平均值倍率关系来衡量。原则偏差公式:S = Sqr(xn-x拨)2 /(n-1) 公式中代表总和,x拨代表x算术平均值,2代表二次方,Sqr代表平方根。例子:有一组数字分别是200、50、100、200,求它们原则偏差。 Java代码 1. x拨=(200+50+100+200)/4=550/4=137.52. S2=(200-1
2、37.5)2+(50-137.5)2+(100-137.5)2+(200-137.5)2/(4-1)=62.52+(-87.5)2+(-37.5)2+62.52/3=3906.25+7656.25+1406.25+3906.25/3=16875/3=56253. 原则偏差S=Sqr(5625)=75x拨 = (200+50+100+200)/4 = 550/4 = 137.5S2 = (200-137.5)2+(50-137.5)2+(100-137.5)2+(200-137.5)2/(4-1) =62.52+(-87.5)2+(-37.5)2+62.52/3 =3906.25+7656.25
3、+1406.25+3906.25/3 = 16875/3 = 5625原则偏差 S = Sqr(5625) = 75cv 变异系数(coefficient of variation),亦称离散系数(coefficient of dispersion)或相对偏差(rsd),是原则偏差与平均值之比,用百分数表达,计算公式为: cv = sd/mean 100% 200、50、100、200cv=55%在我用于本科毕业论文答辩ppt里某页赫然写着这样一行:“原则误:原则差除以样本量平方根”。这是我对“数据解决”某些特地作出一条阐明。前些天打开看届时候,我不禁有些囧。当年咱们生物记录学是一门选修课,授
4、课是生科院生物信息学方向一种牛人,长得像藏人,但是一听口音就懂得她家和我家必定离不太远。 无论生物还是药学,这门课从来就是门选修课。并且学内容很浅,考试是开卷。我学得不咋地,学完时候感觉,记录学说来就一句话:“有无明显性差别”。你说这话啥意思,我也不太懂,能套公式把成果算出来就成。要说起来,关于记录学基本知识,早在大一上分析化学时候就专门讲过,诸多实验报告也都要算平均数和原则差。 等到做完毕设写论文要解决数据时候,我突然就发现了一种问题,为什么我看那么多paper里面,在算样本平均数时候,有附是原则差,有附是原则误呢?并且国外paper都是用原则误。我又不懂,但是搜到有篇专门讲两者区别文章说要
5、用原则误,我也就用了。两者啥区别呢?原则差除以样本量平方根就等于原则误。可这数学关系反映了什么实质?我还是不懂。只是记得上生物记录学学时候,教师特别强调说国内生命科学和医学方面大某些paper都存在记录学错误。我就生怕我这样“对的地”使用原则误反而显得“错误”了,于是有了ppt上多此一举那句话。 其实记录学是诸多学科都需要用到,并且重要性不言而喻。可就我所理解,如咱们这些生、化、医、药专业出身学生有多少真理解了记录学呢?大某些都是停留在机械用软件、套公式、填成果层面吧。固然了,这里存在一种学科差别问题,也不是谁刻意地不想去理解记录学。比喻说,去年国家就三聚氰胺出台了一种最低检测限原则时候,诸多
6、没有科学素养记者就开始疯狂质疑了。其实对“检测限”这个概念咱们就很理解,我想心理学专业学生倒不见得认同,而“检测限”本质同属记录学中“概率”和“误差”范畴。但是总说来,咱们记录学训练比起心理学实在差得太多。 终于进入正题了,由于记录学是心理学基本功,因此我正儿八经地看起了考纲版那本国内最典型当代心理与教诲记录学,等把第八章假设检查看完之后,我暂停了。我基本感受是,一路看下来,条理是清晰,逻辑是明白,我也是理解。如果说单纯应试话,看到这样没问题。可这门课程固然不止是应试之用,那么,我在想,我看了这样多,它讲这些东西究竟是在干嘛呢?对,我意思很明白。这本书是在讲鱼不是在讲渔。我纵使把计算原则误公式
7、及其意义理解得化成灰也结识,可它究竟是干嘛呢? 我暂停是为了找些paper来自己体会记录学用处,这时发现了手头正读着行为科学记录,如获至宝地读完第一章我就恨不得骂脏话了,差距怎么能这样大?!为什么一本国内最典型心理记录学教材和美国一本也许还不是最典型心理记录学教材差了这样远?因此等读完第一某些时候,我想哭了(呃,当作形容词看待吧,不是真要哭)。昨晚读完第二某些时候,我又想哭。由于,我终于理解了“原则误”究竟是用来干嘛!明白了当paper中浮现它时候是阐明了什么实质问题! 索性抓几种点来比较这两本教材。 1、当代在讲中数时候就讲到了内插法,讲百分位数时候又讲了。可是它这两处都没有提“内插法”仨字
8、儿,到日后好几种章节计算概率时候却冒出来“内插法”仨字儿让人不知所云。这也就罢了,核心是,同样讲内插法,原理和办法都是同样,当代用了个形式巨复杂公式来套用,看着就不敢用了。行为没用公式,直接画个小表就可以口算了。 2、类似于上面状况,在针对诸多不同类型概念和办法时,当代诸多习题我在做时候都不得不翻到正文中按例题环节来套用,行为习题基本上都是口算,也不用回顾前面例题。 我忍不住举一种实例对比: 当代版某例题: 有10道正误题,问答题者答对几题才干以为她是真会,或者说答对几题,才干以为不是出于猜测因素? 行为版某例题: 假设你正在用请人预测从整副牌中抽出牌花色来测试人特异功能。在48次实验中,一种
9、人能对的预测多于20次概率是多少? 这两道题解法是一致,考察点也差不多。可是,前面那题纠结提问方式我每次读到都抽搐,恨不得转换几次才干理解题意。当代中类似绕心令比比皆是。难道把话阐明白些就这样困难吗?更不用说当代版在解说题环节时死板了,逼得我只能依葫芦画瓢呀。 3、当代版太瞧得起咱们学生了,诸多概念突然就冒出来了,也不告诉你怎么回事,例如“自由度”;有些概念稍微解说了几句也没讲明白,例如“有偏记录量”它怎么就有偏了呢?再有就是我前面说,讲了那么多讲到最后,我也搞不清晰它究竟是可以用到心理学什么地方去(书中举例清一色是学生测验之类)。而行为对于诸多概念都是用基本属于“一加一等于二”方式一板一眼告
10、诉你它含义。还真别说它讲法像是对待傻子,在一门新学问面前,咱们不就和幼儿园接触到“一加一等于二”之前同样无知么?受教诲再高也不保证您就触类旁通呀。同步,它举例涉及心理学各分支,这才是学以致用呀。 4、再从章节设立顺序上,我不否认当代版有它内在逻辑,但那种逻辑基本上是站在一种已经掌握了记录学人角度展开。对于初学者,越往后越觉得章节之间关系诡异。而行为则是完全从学习者视角设立章节,完全让人可以体会到循序渐进高兴。例如,全书四某些,第一某些讲描述记录,第二某些讲推论记录基本,而事实上,这某些三章共就讲了三个概念:z分数、概率和原则误。放到当代里才三节篇幅。可人家就是咬文嚼字地把这三个对于推论记录超级
11、无敌核心概念给讲通透了,我当前一点疑问都没有了! 5、当代我看完一章脑细胞就基本上耗尽了,由于时不时就要停下来揣摩。而行为一口气看三章也没问题,就像在读故事。掌握同样多知识,后者用时间大概还短某些。毕竟记录学在心理学里是拿来实用,不是要我费劲去培养数学逻辑思维能力吧! 6、此外,我不太清晰原版行为会有多少排版错误,但至少,行为译本排版错误比当代要少得多。此外此外,行为每章SPSS解说比当代清晰太多。此外此外此外,行为每节小测验都附有答案,每章习题奇数题都附有答案。 说到最后,我想引申一下。 当代代表了国内某类先进教材风格,学术至上,用语严谨,条理分明,言简意赅,同步也严肃、枯燥和死板; 行为代
12、表了国外某类先进教材风格,学生至上,用语亲切,行文流畅,点到方止,同步也失去少量严密性、简要性和学术性。 事实上国外尚有一类先进教材,或者我更乐意称其为先进读物。拿记录学来说有大名鼎鼎记录学世界,此类教材之因此先进,是由于能被学院之外大众所接受,也正是为了吸引更广泛读者,它放开了学术门槛。我这样说并不是存在某种“歧视”,而是当其学术品质泛化后,对于专业领域学习者而言就相称限度失去了教材功能,看看好玩儿罢了,既对付不了考试,更应付不了研究。 而我无疑是相称承认行为此类既保证了学术水准又满足“教”“材”功用教材。 以上仅代表个人口味,就犹如文言文和白话文和网络语各有所爱。 最后最后,热情地向所有需
13、要在此后学术研究中运用或理解记录学知识各专业同窗推荐此教材。第六章原则误与可信区间-第一节抽样误差与原则误第六章原则误与可信区间第一节抽样误差与原则误一、抽样误差意义在第一章第二节曾提到过样本与总体以及抽样误差概念,那里谈到,由于存在人与人之间个体差别,虽然从同一总体用同样办法随机抽取例数相似某些样本,各样本算得某种指标,如平均数(或率),普通也参差不齐存在一定差别。样本指标与相应总体指标之间有或多或少相差,这一点是不难理解。如某医生从某地抽了120名12岁男孩,测量其身高,计算出均数为143.10cm,若再从该地抽120名12岁男孩,其平均身高未必仍等于143.10cm,也不一定正好等于某市
14、12岁男孩身高总体均数,这种差别,即由于抽样而带来样本与总体间误差,记录上叫抽样波动或抽样误差。抽样误差和系统误差不同样,关系系统误差,当人们一旦发现它之后,是也许找到产生因素而采用一定办法加以纠正,抽样误差则无法避免。由于客观上既然存在个体差别,那么刚巧这同样本中多抽到几例数值大些,所求样本均数就会稍大,另同样本多抽到几例数值小些,该样本均数就会稍小,这是不言而喻。抽样误差既是样本指标与总体指标之间误差,那么抽样误差小就表达从样本算得平均数或率与总体较接近,有样本代表总体阐明其特性可靠性亦大。但是,普通总体均数或总体率咱们并不懂得,因此抽样误差数量大小,不能直观地加以阐明,只能通过抽样实验来
15、理解抽样误差规律性。二、原则误及其计算为了表达个体差别大小,或者说表达某一变量变异限度大小,可计算原则差等变异指标来阐明,当前咱们要表达抽样误差大小,如要问,从同一总体抽取类似许多样本,各样本均数(或各率)之间变异限度如何?也可用变异指标来阐明。这种指标是:(一)均数原则误为了表达均数抽样误差大小如何,用一种指标称为均数原则误。咱们以样本均数为变量,求出它们原则差即可表达其变异限度,因此将样本均数这“原则差”定名为均数原则误,简称原则误,以区别于普通所说原则差。原则差表达个体值散布情形,而原则误则阐明样本均数参差状况,两者不能混淆。下面用抽样实验进一步阐明之。将100名正常人红细胞数(万/mm
16、3)写在100颗大小均匀豌豆上。这些红细胞数见表6.1,其均数为500,原则差为43。把这些豌豆放在一种口袋里,彻底混匀后取出一颗,记下红细胞数,放回袋内,混匀后再取出一颗,记下数字后再放回去,如此继续下去,这是一种取不完总体,这样每取10个数字作为一种样本,共抽取了一百个样本,并计算每同样本均数与原则差,例见表6.2。表6.1 红细胞数抽样实验用正态总体=500 =43(单位:万/立方厘米)383410422429430431435442442444445449450452455456459461462463465466468469470471472473476477478479480481
17、482484485486487488489491492493494495496497498499500501502503504505506507508509511512513514515516518519520521522523524527528529530531532534535537538539541544545548550551555556558565569578590599600617表6.2红细胞数抽样实验中样本举例样本号红细胞数(万/立方毫米),XXS1383599534442435486478476509544488.661.652503506520503489410528488
18、509527498.333.973478463617544498485496462482569509.450.964529465535473531532556521459383498.452.635442493462527520519521512482471494.929.51第一号样本均数与原则差计算:X4.886/10=488.6将一百个样本均数加总,得到数值为50,096.7,又这一百个样本均数平方之和为25,114,830.91,于是代入原则差计算公式,求得一百个样本均数原则差又称原则误为当总体原则差已知时,可计算理论原则误,公式是(6.1)表6.1抽样实验用总体原则差是43,每个样本
19、例数是10,代入公式得可见由一百个样本均数求得原则误13.50与理论原则误13.60比较接近。在实际工作中,总体原则差往往并不懂得,也不象抽样实验那样从同一总体随机抽取n相等许多样本,而是只有手头一种样本。在此状况下,只能以样本原则差S作为总体原则差预计值。这样,公式6.1中就要用S代替,改为S,以资区别。(6.2)将第1号样本原则差及例数代入式6.2,得再若将第2号样本数字代入,S将成为10.74,余类推。由于不同样本原则差并不相等,可见S也有抽样波动,这一点是值得注意,但它仍不失为较好预计值。以上简介了求原则误三种办法,其实咱们平惯用只是式6.2,而通过前两种办法对比则可使咱们明瞭原则误含
20、义。原则误是描述样本均数变异状况一种指标,它大小与总体原则差(普通只能用S预计)成正比,而与样本含量n平方根成反比,因而若原则差小或样本含量大时,求出原则误就小(原则误小表达样本均数与总体均数较接近),X代表较可靠,因此假若手头资料中观测值变异限度较大(S大)时,为了保证样本代表总体比较可靠,就得恰当增大样本含量(n)。(二)率原则误若总体涉及某事件发生数与未发生数两类,所化成比例或成数即为总体发生率(符号)与未发生率(-)。从总体中随机抽取许多样本(n相等),算出各个样本率(用P表达),会是或大或小有波动。为了表达样本率之间或样本率与总体率之间差别限度,当总体率已知时,可计算理论标误p,其公
21、式是(6.3)实际工作中往往不懂得总体率这时只能以样本率P作为总体率预计值,求得率原则误,并用SP表达,计算公式为(6.4)现举例阐明其求法。例6.1某医生检测了110名成年健康人尿紫质,发现阳性者11人,阴性者99人,于是算得阳性率P及率原则误SP如下:P=11/110100%=10%(用小数表达为0.10)若要进一步增强样本率预计总体率可靠性,可加大样本含量。三、样本均数分布从同一总体里随机抽取n相似许多样本,这些样本均数吴正态分布。如前面所述正常人红细胞数抽样实验中已求得100个样本均数,其中多数与总体均数比较接近而集中分布在其周边,且左右基本对称,见表6.3(此表由表6.4中100个均
22、数划记归组而得)。表6.3红细胞抽样实验中100个样本均数分布组段460-470-480-490-500-510-520-530-540-共计样本数1318282813711100表6.4一百个样本均数、原则差、95%可信区间样本号均数原则差95%可信区间样本号均数原则差95%可信区间1488.661.65444.49532.712498.333.97474.01522.593509.450.96472.96545.844498.452.63460.76536.045494.929.51473.80516.006546.743.23515.78577.62*7524.533.60500.455
23、48.55*8488.341.04458.94517.669485.355.14445.85524.7510502.648.55467.88537.3211495.140.63466.03524.1712524.737.81497.65551.7513512.753.18474.65550.7514494.837.24468.15521.4515493.639.94465.03522.1716495.329.47474.22516.3817491.019.32477.18504.8218506.553.83468.00545.0019487.539.39461.32517.6820495.93
24、2.70472.51519.2921504.834.76479.94529.6622512.244.76483.17547.2323496.540.65467.41525.5924499.837.04473.31526.2925505.737.21479.08532.3226487.734.50463.02512.3827501.537.35474.79528.2128476.129.64454.91497.29*29523.251.57486.31560.0930509.533.61485.45533.5531494.228.60473.75514.6532506.225.29483.105
25、24.3033501.127.88481.15521.0534520.630.23498.98542.2235492.042.18461.82522.1836509.619.17495.89523.3137488.642.29458.36518.8438510.947.55476.88544.9239516.439.96487.81544.9940518.846.43485.59552.0141495.936.89469.53522.2742526.442.78495.80557.0043505.853.84467.30544.3044503.047.33469.14536.8645504.8
26、47.77470.62538.9846492.429.20471.52513.2847505.538.32478.08532.9248486.552.98448.59524.4149515.238.69487.51542.8950487.053.75448.55525.4551503.351.54466.43540.1752491.058.47449.18532.8253522.365.01475.79568.8154490.349.92454.58526.0255516.737.26490.05543.3556489.631.41467.14512.0657490.062.90445.015
27、34.9958489.230.91467.09511.3159509.140.51480.12538.0860513.529.18492.62534.3861476.442.06446.32506.4862511.528.46491.14531.8663480.744.83448.62512.7864501.429.00480.66522.1465481.150.65444.86517.3466496.036.53469.87522.1367489.244.20457.58520.8268494.829.73473.54516.0669497.268.49448.21546.1970504.1
28、35.13478.95529.2571507.934.35483.33532.4772465.325.56447.02483.58*73502.645.54470.03535.1774486.448.51451.70521.1075526.632.68503.10550.10*76503.247.18469.45536.9577496.733.45472.77520.6378504.843.52473.67535.9379490.258.07448.67531.7380486.626.60467.57505.6381506.128.48485.72526.4882513.729.28492.7
29、5534.6583481.529.78460.19502.8184491.244.73459.22523.1885515.725.78497.26534.1486513.964.62467.69560.1187496.423.82479.37513.4388507.445.14475.10539.7089479.144.15465.52528.6890498.930.16477.32520.4891503.753.90465.16542.2492495.930.86473.78518.0293494.658.48452.78536.4294507.142.44476.74537.4695488
30、.536.15462.65514.3596489.168.01440.44537.7697530.158.72488.09572.1198518.745.10486.44550.9699507.841.87477.85537.73100540.655.17465.13544.07已知按正态分布,理论上有95%变量值分布在均数加、减1.96倍原则差(样本均数原则差称原则误)范畴内,这里也即100个样本均数中有95个分布在5001.96(13.60)=473.34至500+1.96(13.60)=526.66范畴内。现看表6.4,在100个样本均数中,第6号(546.7)、第72号(465.3)、第97号(530.1)在上述范畴之外,第42号(526.4)及第75号(526.6)就在临界值附近,别的95个(若将第42及75号计算在内则为97个)样本均数在此范畴之内,将实际分布与理论分布相对照见下表6.5。100个样本均数实际分布与正态分布理论基本符合。