1、统计学基础l在测定阶段中收集材料以分析的方法使用。l把工程的Xs与 Ys特性化资料用数值显示。l用以前的工程和执行DATA推定未来时使用。l高级统计性问题解决方法的基础而使用。l基本统计概念不是根据直观而是创出根据事实的语言。基础统计的必要性22024/6/17 周一名词解释1.总体与样本 Population and sample样本:从总体中随机抽取的部分观察单位。如某单位男士的身高总体:根据研究目的确定的同质研究对象的全体(集合)。如成年人的身高。分有限总体与无限总体32024/6/17 周一总体与样本 1.CVTE&TV事业部2.TV事业部&技术支持部3.技术支持部&BT1战队4.平台
2、支持部&订单软件管理组42024/6/17 周一名词解释从总体中得到样本的方法:抽样。(抽样方法与样本量)从样本推论总体的方法:统计推断 (区间估计,假设检验等)请问:计算CVTE的男生的平均身高推算CVTE的女生的平均体重推算从14楼到食堂的平均时间52024/6/17 周一名词解释变量可以测量的任何特征或属性Any characteristic or attribute that can be measured。例如:热量值、蛋白质含量、碳水化合物含量。随机变量在概率论中称变量为随机变量 变量与随机变量 Variable and random variable62024/6/17 周一变量
3、变量(随机变量)的分类p 离散型变量(discrete variable):计数资料(15,17,24,)可能取到的值是有限个的随机变量记数变量,只能通过记数的方法来获取,只能以整数为单位p 连续性变量(continuous variable):计量资料(1.65,1.73,1.77,)可能取到的值是无限个的随机变量计量变量,能用量测手段直接测定p 有序变量(ordinal variable):等级资料(优、良、中、差)72024/6/17 周一变量胖子的体重PQ组的出差天数苹果5S手机的待机时间刘畅每月发放订单软件软件个数丽仪跑100米的时间3553软件的编译时间订单软件的重测次数订单软件的
4、重测率82024/6/17 周一名词解释 1.算术均数(arithmetic mean),简称均值(mean)2.几何均数(geometric mean)3.中位数(median)4.众数(mode)5.调和均数(harmonic mean)6.截尾平均值(5%trimmed mean)平均指标总称为平均数(average)反映了资料的集中趋势(central tendency)92024/6/17 周一1.均值(mean)适用条件:变量呈正态或近似正态分布的情况102024/6/17 周一1.均值(mean)小A和小B是好战友,周日相约去靶场打靶小A前10枪的成绩是:10,10,10,0,1
5、0,10,0,10,10,10小B前10枪的成绩是8,7,7,9,8,9,7,8,8,9请问第11枪小A小B的成绩会是多少?112024/6/17 周一1.均值(mean)胖子和浩子都会修板子,下面是两人去年每月的修板数量胖子:77,78,82,81,81,80,81,79,79,81,83,79浩子86,87,65,90,85,96,47,86,86,92,55,85请问可以用平均数来推测下一个月两人的休班量吗?122024/6/17 周一2.中位数(median)中位数是将一批数据从小至大排列后位次居中的数据值,符号为Md,反映一批观察值在位次上的平均水平。适用条件:适合各种类型的资料。尤
6、其适合于 大样本偏态分布的资料;参数有不确定数值;参数分布不明等。132024/6/17 周一2.中位数(median)先将观察值按从小到大顺序排列,再按以下公式计算:特点:仅仅利用了中间的12个数据142024/6/17 周一小A和小B是好战友,周日相约去靶场打靶小A前10枪的成绩是:10,10,10,0,10,10,0,10,10,10小B前10枪的成绩是8,7,7,9,8,9,7,8,8,9请问第11枪小A小B的成绩会是多少?2.中位数(median)152024/6/17 周一胖子和浩子都会修板子,下面是两人去年每月的修板数量胖子:77,78,82,81,81,80,81,79,79,
7、81,83,79浩子86,87,65,90,85,96,47,86,86,92,55,85请问可以用平均数来推测下一个月两人的休班量吗?2.中位数(median)162024/6/17 周一3.众数(mode)出现次数(或频数)最多的观察值;在频数分布图中对应于高峰所在位置的观察值。适用于大样本;较粗糙。172024/6/17 周一小A和小B是好战友,周日相约去靶场打靶小A前10枪的成绩是:10,10,10,0,10,10,0,10,10,10小B前10枪的成绩是8,7,7,9,8,9,7,8,8,9请问第11枪小A小B的成绩会是多少?3.众数(mode)182024/6/17 周一胖子和浩子
8、都会修板子,下面是两人去年每月的修板数量胖子:77,78,82,81,81,80,81,79,79,81,83,79浩子86,87,65,90,85,96,47,86,86,92,55,85请问可以用平均数来推测下一个月两人的休班量吗?3.众数(mode)192024/6/17 周一均值、中位数、众数三者关系正态分布时:均值中位数众数正偏态分布时:均值中位数众数负偏态分布时:均值中位数众数202024/6/17 周一名词解释波动(variation)指标反映数据的离散度(Dispersion)。即个体观察值的波动程度。常用的指标有:1.极差(Range)(全距)2.百分位数与四分位数间距 Pe
9、rcentile and Quartile range 3.方差 Variance 4.标准差 Standard Deviation 5.变异系数 Coefficient of Variation212024/6/17 周一1.极差(Range)(全距)优点:简便缺点:1.只利用了两个极端值2.n大,R也会大3.不稳定222024/6/17 周一1.极差(Range)(全距)胖子、勇琼、高婕、丽仪、晓冉、蝶婷、许云的体重分别是:210,78,83,92,86,83,90请问TA们体重的极差是多少?TA们体重的波动大吗?小麦跑一百米10次的速度分别是:13.6313.4513.8714.2114
10、.0013.7813.9918.7714.2214.12请问小麦的10次100米时间的极差是多少?232024/6/17 周一2.方差(variance)方差(variance)也称均方差(mean square deviation),样本观察值的离均差平方和的均值。表示一组数据的平均离散情况。242024/6/17 周一2.方差(variance)已知胖子最近一周抽烟的次数为1,1,2,2,2,4,2求胖子上一周抽烟的波动情况252024/6/17 周一2.标准差(SD)标准差(Standard deviation,Std,SD)即方差的正平方根;其单位与原变量X的单位相同。总体标准差262
11、024/6/17 周一3.标准差(SD)已知胖子最近一周抽烟的次数为1,1,2,2,2,4,2求胖子上一周抽烟的波动情况272024/6/17 周一样本方差为什么要除以(n1)与自由度(degrees of freedom)有关。自由度是数学名词,在统计学中,n个数据如不受任何条件的限制,则n个数据可取任意值,称为有n个自由度。若受到k个条件的限制,就只有(nk)个自由度了。例如一个有5个观察值的样本,因为受到统计数的约束,在5个离均差中,只有4个数值可以在一定范围内自由变动取值,而第五个离均差必须满足 这一限制条件。282024/6/17 周一名词解释正态分布(Normal distribu
12、tion)正态分布也叫高斯分布(Gaussian distribution),是最常见、最重要的一种连续型分布。1、正态分布的数学形式 2、正态曲线 3、标准正态分布 4、曲线下面积292024/6/17 周一1.正态分布(Normal distribution)302024/6/17 周一1.正态曲线(normal curve)图形特点:1.钟型2.中间高3.两头低4.左右对称5.最高处对应于X轴的值就是均数6.曲线下面积为17.标准差决定曲线的形状X Xf f(X X)312024/6/17 周一1.正态曲线(normal curve)正态分布曲线由两个参数决定,即总体均值和总体标准差。在
13、不变的情况下,函数曲线形状不变,若变大时,曲线位置向右移;若变小时,曲线位置向左移,故称为位置参数。在不变的情况下,函数曲线位置不变,若变大时,曲线形状变的越来越“胖”和“矮”;若变小时,曲线形状变的越来越“瘦”和“高”,故称为形态参数或变异度参数。322024/6/17 周一1.正态曲线(normal curve)X Xf f(X X)已知胖子最近一周抽烟的次数为1,1,2,2,2,4,2假设胖子抽烟的次数的概率统计符合正态分布,请画出胖子抽烟次数的概率统计正态分布图332024/6/17 周一1.正态曲线(normal curve)标准正态离差标准正态分布:N(0,1)正态分布:34202
14、4/6/17 周一 u-累计概率分布函数:1.正态曲线-曲线下面积352024/6/17 周一曲线下面积分布规律0-11-1.961.96-2.582.5868.27%95.00%99.00%-+-1.96+1.96-2.58+2.5868.27%95.00%99.00%362024/6/17 周一 2 S2 S对母集团特性的推论对母集团特性的推论母平均母平均 :母分散母分散 :母标准偏差母标准偏差 :标本平均标本平均 :标本分散标本分散 :标本标准偏差标本标准偏差 :母数(Parameter):表示母集团的特性值(母平均,母分散等)统计量(Statistic):根据从标本中计算的标本特性值,
15、可以推定 母集团的特性。(标本平均,标本分散等)抽出抽出(Sampling)AAAAAAABBBBBBCCCCCCDDDDDDDAABDDDCCCCB母集团母集团母集团母集团标本标本标本标本母数母数母数母数统计量统计量统计量统计量资料的测度372024/6/17 周一 对资料中心的测度,包括平均,中央值,最频值等。对资料中心的测度,包括平均,中央值,最频值等。.例)制品完成所需AF 的7个工程。下面测定了每工程所需要的时间。求每工程所需要的平均时间。极端值极端值 30分对平均分对平均的影响大的影响大!平均平均(Mean)n 个观测值的平均是,观测值的总合除于观测值个数 对于 极端值很敏感(ou
16、tlier)。平均 :2 2 1 3 2 9 30A B C D E F G(单位:分)观测值总合观测值数=计算)计算)中心位置中心位置资料的测度382024/6/17 周一 最频值最频值(Mode)DATA频度数频度数(Frequency)大的大的 少受极端值少受极端值(Outlier)的影响。的影响。例例)前面问题中最频值是多少前面问题中最频值是多少?在2,2,1,3,2,9,30中频度数 2值为 3,拥有最多 的频度,因此最频值是 2。中央值,最频值中央值,最频值少受检端值的少受检端值的 影响。影响。n n 为单数时为单数时 :n n 为双数时为双数时 :1 2 2 1 2 2 2 2
17、3 9 30 3 9 301 2 2 2 3 9 10 301 2 2 2 3 9 10 302和 3的平均2.5资料的测度392024/6/17 周一显示资料离中心位置分散多少的测度,代表性的有分散、标准偏差、显示资料离中心位置分散多少的测度,代表性的有分散、标准偏差、4 4分位数等。分位数等。B B汽车每汽车每L L 平均行驶距离比平均行驶距离比 A A汽车高,但分布的散布图大,汽车高,但分布的散布图大,所以不能说所以不能说 一定是一定是B B汽车好汽车好!A A 汽车汽车B B 汽车汽车下面是 测定A,B汽车每L 行驶 距离的DATA分析。各位喜欢什么样的汽车?AB例例 )统计分析中只考
18、虑平均判断会得到错误的结果,应考虑资料分散程度的散布图。散布图散布图资料的测度402024/6/17 周一分散和标准偏差是资料离平均值的距离,表示资料分散的程度。可以使用各资料值和平均的差异,即把偏差都合起来的方法,但如下例经常成为0,所以使用距离的 乘方,即,偏差的乘方。3040506070 假如,从 点到 的乘方距离是 ,分散被定义为平均乘方距离(按统计理由 分母不是 n,而是使用 n-1)标准偏差取乘方根分散的形态。分散分散(Variance)与标准偏差与标准偏差(Standard deviation)例例)资料 :4 8 7 5 2 6 3 平均 5 偏差的合 :(-1)+3+2+0+
19、(-3)+1+(-2)=0 标本分散:标准偏差 :资料的测度412024/6/17 周一 4分位数分位数(Quartile):资料按顺序排列时,被资料按顺序排列时,被 4等分的数。等分的数。4 分位范围分位范围(IQR:Interquartile Range):Q3-Q1Q1:第 1/4分位数(First quartile)=相当于25%的值Q2:第 2/4分位数(Second Quartile:中央值)=相当于 50%的值Q3:第 3/4分位数(Third Quartile)=相当于75%的值例例)有如下有如下DATA时,求时,求4分位数和分位数和 IQR.2,8,20,4,9,5,4,3,
20、计算计算)按顺序排列 :Q1=3.25Q2(中央值)=4.5Q3=8.752 3 4 4 5 8 9 20 范围范围(Range):在一组在一组DATA中,把最大值和最小值的间隔用数值表示。中,把最大值和最小值的间隔用数值表示。=最大值最大值 最小值最小值资料的测度422024/6/17 周一Cpk及相关指数的定义:Ca:制程准确度Cp:制程精密度Cpk:制程能力指数432024/6/17 周一Ca:制程准确度(Capability of Accuracy)从制程中所获得的数据其实绩平均值与规格中心值之间偏差的程度,称为制程准确度Cp:制程精密度(Capability of Precision
21、)设定工程规格上下限目的在希望制造出各个产品之质量水准能在规格上下限之容许范围内,制程精密度评价之目的,是在衡量产品分散宽度符合公差程度。442024/6/17 周一Cpk:制程能力指数(Performance Index)是某个工程或制程水准的量化反应,也是工程评估的一类指针。目前制造的标准为:Cpk 1.33。注:当计算Cpk值时样本数应大于等于 25 个452024/6/17 周一Cpk的相关计算公式(双边规格):的相关计算公式(双边规格):CaX:实绩平均值:实绩平均值:规格中心值:规格中心值USL:规格规格上限(上限(Upper Spec Limit)LSL:规格下限:规格下限 (L
22、ower Spec Limit)462024/6/17 周一Cpk的相关计算公式(双边规格)的相关计算公式(双边规格):Cp&Cpk 472024/6/17 周一Cpk的相关计算公式(单边规格)的相关计算公式(单边规格):Cp&Cpk 482024/6/17 周一Cpk及相关指数的解析:及相关指数的解析:Ca:其值越小越好,当为其值越小越好,当为 0 时为最好。且其值可能为时为最好。且其值可能为负数,代表其实绩中平均值较规格中心值小。负数,代表其实绩中平均值较规格中心值小。Cp:其值越大越好,代表样本分布越集中。其值越大越好,代表样本分布越集中。Cpk:该值越大越好,代表制程能力越强。该值越大越好,代表制程能力越强。Ca 代表位置的关系,而代表位置的关系,而Cp代表分布的关系代表分布的关系 492024/6/17 周一谢谢!