资源描述
單擊此處編輯母版標題樣式,單擊此處編輯母版文本樣式,第二級,第三級,第四級,第五級,*,單擊此處編輯母版標題樣式,單擊此處編輯母版文本樣式,第二級,第三級,第四級,第五級,*,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,教育统计学,從中心位置,(central location),到變異,(variation),統計學家通過“分布”這個鏡頭研究變異,(,Wild,2006,p.11,),變異是統計思想的核心要素,變異在過程中無處不在。個體是可變的,對同樣個體所進行的重複測量也是可變的。在自然界和人類事物中,嚴格確定論的範圍十分有限。,拼圖片問題,三張大小一樣且印有不同圖案的紙片均被剪成兩小張,充分混合以打亂次序,然後閉上眼睛隨便抽出兩張拼在一起,問能夠拼成一張原圖的可能性。,恰好能夠拼成一張原圖的頻率隨實驗次數增多而趨於穩定,池塘裏有多少魚?,捉放捉的方法:,捉來,c,條魚,作標記,放回,充分混合後,再捉,r,條,其中,t,條已作標記,記池塘裏有魚,N,條,則,大家有疑问的,可以询问和交流,可以互相讨论下,但要小声点,變異在不同情境下有著不同的具體的含義,在概率情境中,變異主要體現在兩個方面,一個是理論概率和實際頻率之間的差異,另一個是重複試驗所得結果之間的差異,在統計中,變異主要存在於不同樣本帶來的不同數據或結果中。包括樣本與總體間的差異;單個樣本中個體間的差異;來自同一個總體的幾個樣本之間的差異,等等。,變異,variation,度量數據離散程度(離開中心的程度)的指標主要有,極差(全距),百分位差 (百分位數,P,90,與,P,10,之間的距離),四分差(,P,75,與,P,25,之間距離的一半),平均差,方差(變異數)、標准差,變異系數,問題,1,上海每日最高氣溫統計表(單位:,),2,月,21,日,2,月,22,日,2,月,23,日,2,月,24,日,2,月,25,日,2,月,26,日,2,月,27,日,2,月,28,日,2001,年,12 1314 22 6 8 912,2002,年,13 1312 9 11 16 1210,據此這兩年同期,8,天氣溫孰高孰低?氣溫變化哪個更大?,說說你對兩組氣溫數據觀察之後的感覺,思考:什麼樣的指標可以反映一組數據變化範圍的大小?,極差,=最大值最小值,平均氣溫都是,12,從極差到平均差,問題,2,平均數、極差都相等,但是感覺還是小明的成績比較集中、穩定,小兵的成績則比較散。那麼什麼樣的指標能反映這種“散”的感覺?,離開平均數的遠近程度?各數據與平均值的差再累加?試一試,不行?,再想新的指標,試一試,比一比,平均差,從平均差到方差,絕對值計算不方便,能否再改進?得到離均差平方和,問題,3,若有,7,次測試,小明缺席,2,次,你的指標還合理嗎?,n=5時,,定義標准差,求方差:先平均,再求差,然後平方,最後再平均,引向標准差,-,數量單位,用計算器計算標准差,閱讀:早穿皮襖午穿紗,從極差到平均差到方差到標准差,公式怎麼來的?,為什麼要求差?,為什麼要平方?,為什麼要相加?,為什麼要除以,n,?,為什麼要開方?,如果只有一個數據,還有變異嗎?,為什麼計算器上有,S,n-1,與,S,n,之分呢?,2004,河南省中考題,在某旅遊景區上山的一條小路上,有一些斷斷續續的臺階,如下圖所示是其中的甲、乙臺階路的示意圖。請你用所學過的統計知識,(,平均數、中位數、方差、標准差等,),回答下列問題:,(1),兩段臺階路有哪些相同點和不同點,?,(2),哪段臺階路走起來更舒服,?,為什麼,?,(3),為方便遊客行走,需要重新整修上山的小路,對於這兩段臺階路臺階數不變的情況下,請你提出合理的整修建議。,兩組數據的平均數不相等呢?,這時通過比較方差來判別差異大小的方法還管用嗎?,要比較初一學生之間身高差異大還是初三學生之間身高差異大,要比較身高差異大還是體重差異大(測量單位都不同了),從標准差,到相對差異系數,兩組數據:,5,,,6,,,7,,,8,,,9,和,105,,,106,,,107,,,108,,,109,,它們是兩種產品加工後的尺寸,第一組要求加工後產品的尺寸是,7cm,,第二組則要求是,107cm,。,憑直覺(或者在同一個坐標系中表示它們),生產第二組產品的工藝好於第一組,因為第二組產品的尺寸比第一組產品的尺寸穩定。但是這兩組數據的方差一樣大,引入一個新指標,標准差除以平均數後得到的比值,就與我們的感覺一致了,這個新指標統計上叫做相對差異系數(標准差變異系數),CV,,它更能體現變異的相對性。,從中位數到四分位數,將全部數據按序由小到大排列後,稱下四分位數為第一四分位數,Q1,(位於,N/4,處),中位數為第二四分位數,Q2,,上四分位數為第三四分位數,Q3,(位於,3N/4,處),中位數輔以四分位數對數據的中心位置才比較清楚,四分差,四分差 ,它表示的是一段距離,去掉了數列中四分之一最小的部分和四分之一最大的部分,四分位距,是 。,例,4-3,歸類時,完全仿照歸類時中位數的求法,代公式,4-18,和,4-19,使用四分差的利弊,因為中間半數數據的穩定性較好,所以分位數差在避免極端值對變異指標的幹擾方面比極差有較大改善,在出現無窮大時,無法計算標准差,但可以計算四分差,但它依然只用到兩個值,沒有利用每一個數據,穩定性還是不理想。,各種變異量數的選用,極差,四分差,平均差,標准差 是一個越來越精細的過程,包含原始數據的信息也越來越多,因此穩定性越來越好,標准差最為常用,平均差作的是絕對值運算,標准差做的是平方運算,當有較多極端值時,平均差更合理,四分差更不受絕對值的影響,關心中間的,50%,數據,以中位數為集中量數時,常輔以四分差,當樣本容量很大時,如超過,500,,標准差約為全距的,1/6.,在小樣本中,這個比率要小一些,(,1,)將一組數據中的每一個都增加,a,,這組數據的標准差將怎樣變化?,(,2,)將一組數據中的每一個都平方,這組數據的標准差將怎樣變化?,(,3,)將一組數據中的每一個都乘以,a,,這組數據的標准差將怎樣變化?,標准差的性質,不變,不變、變大、變小都有可能。平方之後數據本身變化較多,a,倍,相對地位量數,因為概括提煉總體中心位置、離散程度的統計量拋棄了許多總體信息,所以宏觀把握總體最直接的辦法還是看分布,相對地位量數是用來描述某個數據與某一參照點比較,它在團體中所處的相對地位,百分等級、百分位數,標准分數(z分數、T分數等等),百分等級,PR,和百分位數,Pp,原始百分制分數,0,100,百分等級,分為100個等級,最低分,最高分,PR=50,50%,N,P,50,表5-1,公式5-1,請解釋:,原始分數,百分等級,78,99,43,25,23,1,歸類時,l,是第,p,百分位數所在組真正的下限,N,是數據總數,F,是第,p,百分位數所在組以下的累積頻數,f,p,是第,p,百分位數所在組的頻數,h,是組距,P,p,(原始分數)與,PR,可以互求,累積百分比曲線是對應的形象化,求,PR,有相同分數,表5-3,PR是對 的結果取整數,得該分數人數之半+小於該分數的人數在總人數中的百分比,沒有相同分數取,f,=1,例5-3,原始分數,標准分數,為什麼要將原始分數轉化到標准分數?,已知原始分數分布的均值 與標准差 如何將分數 轉化為,z,分數?,z,分數的平均數是,0,,方差是,1,z,分數有怎樣的便利與好處?以平均數為參照點,以標准差為單位的一個相對量 可比 可加 在正態分布下可查其百分等級 表,5-4,,例,5-5,線性轉換,
展开阅读全文