统计学基础知识.doc_咨信网zixin.com.cn

资源描述

一、数据的特征值 (一）数据的位置特征值 1）平均值如果从总体中抽取一个样本，得到一批数据x1,x2，x3….xn，则样本的平均值x为： n—数据个数； xi-第i个数据数； ∑-求和。 2）中位数有时，为减少计算,将数据x1，x2，x3…。xn按大小次序排列，用位居于正中的那个数或中间两个数的平均值（当数据为偶数时）表示数据的总体平均水平。 3）中值M 测定值中的最大值xmax与最小值xmin的平均值，用M表示。 4)众数在用频数分布表示测定值时,频数最多的值即为众数.若测定值按区间做频数分布时，频数最多的区间代表值（一般取区间中值）也称众数。（二）数据的离散特征值 1）极差R 测定值中的最大值xmax与最小值xmin之差称为极差。通常R用于个数n小于10的情况下，n大于10时,一般采用标准偏差s表示。 2）偏差平方和S S = = 各测定值xi与平均值之差称为偏差.各测定值的偏差平方和称为偏差平方和，简称平方和，用S表示。无偏方差各个测定值的偏差平方和除以(n—1）后所得的值称为无偏方差（简称方差)，用s2表示：标准偏差s 方差s2的平方根为标准偏差(简称标准差），用s表示：（三）变异系数以上反映数据离散程度的特征值,只反映产品质量的绝对波动大小.在工程实践中，测量较大的产品,绝对误差一般较大，反之亦然。因此要考虑相对波动的大小，在统计技术上用变异系数CV来表达：上式中σ和μ为总体均值和总体标准差，当过程在受控状态下，且样本容差较大时，可用样本标准差s和样本均值估计. Ca、Cp、Cpk的计算过程准确度指数(Ca值）：表示过程特性中心位置的偏移程度,越小越好 Ca=（样本平均值—规格中心值)/(规格公差/2）等级A：|Ca｜≦12。5％表示作业员遵守作业规范，并达规格要求等级B ： 12。5%< |Ca|≦25％表示必要时尽可能提升至A级等级C： 25%〈｜Ca|≦50％表示作业员可能看错或未按标准作业，或须修改规格及作业标准。等级D： 50％〈 |Ca｜表示应采取紧急措施，全面整改可能影响之因素,必要时应停止生产。过程精密度能力系数(Cp值）: 表示过程特性分散的程度，值越大越集中。 Cp=(规格上限-规格下限）/（6×标准差) 合格：1.33≦Cp表示能力足够警告：1。00 ≦ Cp〈 1.33表示能力无足够宽度，平均值稍有偏差时，不良率既会增加。不合格： Cp〈 1.00表示能力不足，有不合格品，须全数筛选,并设法缩小变异或整改规格公差。过程综合能力系数（Cpk值）：同时考虑“偏移”程度及“分散程度 Cpk=(1-Ca) ×Cp 此系数为过程评价用系数，用于过程改善客户指定Cpk值时，欲达到此Cpk值，可先探讨Ca及Cp值：“准确度”“精密度”是否有适当能力一般客户是指定值多数为≧1.33;Cpk值≧3.00时，表示过程能力已经足够了，继续维持即可;若想进一步改善，应考虑成本效益。 Cp=(Ucl-Lsl)/6δ Cpku=（Ucl—Xbar)/3δ Cpkl=（Xbar—Lsl）/3δ Cpk=min(Cpku : Cpkl）二、回归分析（一)什么是回归分析回归分析是用来研究一个指标与几个变量间的相关关系的方法。设有两个变量x和y，前者为自变量，后者为因变量，并均为随机变量。当自变量X变化时，Y会产生相应的变化，如果具有大量或较多的统计数据(xi，yi），则可以用数学方法找出两者之间的统计关系y＝f(x),这种数学方法称为回归分析. 当y＝a＋bx时，称之为一元线性回归；当y＝f（x）为非线性函数关系时，称之为非线性回归; 当x变量不止1个，有几个时，即有（x1，x2···，xn）,则y＝f(x1，x2···,xn）称之为多元回归. 当有y＝a＋b1 x1＋b2 x2＋···＋bn xn时，称之为多元线性回归，否则为多元非线性回归。回归分析可用于预测、质量控制等方面. （二）一元线性回归方程的计算方法设一元线性回归方程的表达式为： y=a+bx 现在给出了n对数据(xi， yi )，要求根据这些数据去估计a与b的值。则: 其中 Lxx:-—--x的离差平方和 Lyy-——-y的离差平方和 Lxy——--x，y的离差成积之和三、统计过程控制基本概念 Statistical Process Control（SPC—--统计过程控制）的概念是：应用统计技术对过程中的各个阶段进行评估和检察，保持过程处于可接受的和稳定的水平，以保证产品与服务满足要求的均匀性。这里的统计技术涉及到数理统计内容，但所应用的主要工具是控制图。 SPC可以判断过程的异常，及时告警。但是不能告知此异常是什么因素引起的，发生于何处。20世纪80年代起，我国的张公绪先生提出Statistical Process Diagnosis理论（SPD-—-统计过程诊断).20世纪90年代起又发展为Statistical Process Adjustment （SPA—--统计过程调整）.三者循环关系如下： SPC---告诉过程是否有异常 SPD———告诉过程是否有异常，若异常,告知问题出在哪里 SPA--—告诉过程是否有异常，若异常，告知问题出在哪里,如何进行调整所以SPC是质量改进循环的首要步骤，应该熟练掌握运用。四、控制图的应用统计过程控制的主要工具是控制图（SPC图）。控制图是将一个过程定期收集的样本数据按顺序描点绘制成曲线的一种技术，可以发现过程异常，是采取预防措施的重要手段。1984年日本名古屋工业大学调查了上百家中小型企业，发现平均每家企业采用137张控制图。美国柯达一共应用了35000张控制图。 (一）控制图的原理当质量特性值x服从正态分布时，由两个参数决定分布曲线的位置与形状,即平均值μ和标准差σ。不论μ和σ取什么值，产品质量特性值x落在[μ-３σ,μ+3σ］区间内的概率为99.73%.根据小概率事件可以忽略的原则，若变量x超出 ±３σ范围，则认为过程存在异常。一个控制图有三条线：中心线,简称CL线。 CL=μ 上控制线,简称UCL线. UCL=μ+3σ 下控制线，简称LCL线. LCL=μ—3σ 将正态分布曲线图旋转180度，即得到控制图. （二)如何利用控制图判断过程异常多数点子在μ±1σ范围内（68％左右)，小部分点子在μ±2σ和μ±1σ之间（27%左右），点子随机排列，是过程控制的理想状态。中心线一侧的点子明显比另一侧多，应考虑均值可能产生偏移。较多的点子接近上下控制线，说明标准差已经变大。中心线一侧连续出现多个点子或点子连续上升/下降，证明有系统因素干扰。点子按一定时间间隔呈周期性变化,可能工艺、环境等因素失控。（三）常规控制图（休哈特控制图) 常规控制图即休哈特控制图，参见下表“常规控制图"。常规控制图分布控制图代号控制图名称控制图界限备注正态分布（计量值）均值—极差控制图正态分布的参数μ与σ互相独立,控制正态分布需要分别控制μ与σ，故正态分布控制图都有两张控制图，前者控制μ，后者控制σ。二项分布与泊松分布则并非如此。均值—标准差控制图中位数-极差控制图单值—移动极差控制图二项分布（计件值）不合格品率控制图左列两图可由通用不合格品数npr图代替。不合格品数控制图泊松分布（计点值）单位不合格数控制图左列两图可由通用缺陷数cr图代替。不合格数控制图五、过程能力分析、过程能力指数计算（一）、过程能力分析过程能力（process capability)指过程加工质量方面的能力，决定因素是人、机、料、法、测和环（即5M1E)，与公差无关.分析过程能力只能在稳态的基础上，即统计控制状态。过程能力决定于由偶因造成的总变差σ，当过程处于稳态时，产品的计量质量特性值有99.73％在μ±3σ范围内，即几乎全部产品的特性值包含在6σ范围之内。故常用6倍标准差（6σ）表示过程能力，它的数值越小，表示过程能力越强。（二）、过程能力指数计算当产品质量特性分布的均值μ与公差中心M重合时 1、对于公差的上、下限都有要求时，过程能力指数计算公式如下： T 为公差， TU为公差上限，TL 为公差下限, 是质量特性总体标准差的估计值. 在上述过程能力指数中,T反映对产品的技术要求（或客户对产品的要求），而σ反映本企业过程加工的质量.比值CP反映过程加工质量满足产品技术要求的程度。根据T与6σ的比值，可以得到下图所示三种典型的情况。CP值越大，表明加工质量越好，但对设备和人员的要求也越高，加工成本相应升高。当CP=1，似乎既满足要求也节约成本，但由于过程的波动，分布中心一有偏移，不合格品率就要增加，因此，CP应取>1。一般情况下,当CP=1.33，T=8σ,整个分布基本上都在上下规范限度内，且留有变动空间。故ISO8258：1991要求CP≥1.33。 2、只对单侧公差限有规定时只规定上限时，只规定下限时，当产品质量特性分布的均值μ与公差中心M有偏离时这种情况下，需要对无偏离CP乘上一个修正系数（1—K)。有偏离情况下的过程能力指数是：过程能力指数与不合格品率的关系考虑过程能力指数与不合格品率的关系时，直接查@正态分布表比较方便。当公差中心M与数据分布中心μ重合时，当公差中心M与数据分布中心μ有偏离时，例:在无偏离情况下，求CP=0.7时的不合格品率P. 解答： CP=0。7， 3 CP=2。1 查“正态分布表”,得到不合格品率为： P=2—2 x 0。98214=0.03572 6。4.3。3 6σ控制方法 6σ控制方法，即过程能力指数达到2以上，不合格品率0.08197316, 几乎达到零缺陷。执行6σ需要多方面的专业技能和知识，包括：SPC、MSA、DOE、可靠度工程、FMEA、TQM、QFD、田口方法、ISO9000、质量成本QCOST、数理统计、顾客满意、同步工程、价值工程、绿色设计等等. 所用的工具可以是： SPC 度量、分析、改进和监控过程的波动 DOE/田口方法优化设计技术，通过DOE，改进过程设计，使过程能力达到最优水平 FMEA 风险分析技术，辅助确定改进项目，制定改进目标 QFD 顾客需求分析技术,辅助将顾客需求正确地转换为内部工作要求防错从根本上防止错误发生的方法平均值加减标准差表示的是什么标准差，标准差的平方是方差，方差就是为了统计这组数据偏离平均值的程度，也可以说是这组数据的稳定性. 例如两个人打靶,A打6，7，8,9，10，平均值是8，方差就是［(-2）^2+(—1)^2+0+1^2+2^2］/5=2，标准差等于根号2 B打8，8,8,8,8，平均值是8，方差就是0,这样来说B的成绩更稳定。平均数加减标准差的范围内代表大概率事件，范围外代表小概率事件.用成绩为样本，则范围内的成绩为正常的大部分考生的成绩，范围外的为特殊的少部分考生的成绩（包括特别好的和特别差的)。通常，一次考试的成绩都是成正态分布的，平均数加减标准差的范围内的成绩应该达到85％以上。如果没有成正态分布，则说明试卷没有出好，出得太难或者太简单了。对某一个人所有考试的成绩看平均数和标准差就够了,对平均数加减标准差的分析没有多大意义。但是，某一个人在一段时间内某一特定科目的所有考试成绩又可以用平均数加减标准差来分析了。平均数只能显示总体情况,而标准差能够看出变异程度。标准差越大，数据越离散。比如以下两组数:a. 2 2 2 2 2 b.1 1 2 3 3 两组的均数相等，而a组数据集中（向均数集中），b组离散，a组标准差小于b组 P值与α值的关系? P值（P value）就是当原假设为真时所得到的样本观察结果或更极端结果出现的概率。 α值是一个临界概率值。它表示在“统计假设检验”中，用样本资料推断总体时,犯拒绝“假设”错误的可能性大小。α越小,犯拒绝“假设”的错误可能性越小. P是“拒绝原假设时犯错误概率”又或者说是“如果你拒绝掉原假设实际上是在冤枉好人的概率”. 不管怎么表达理解上都有点绕，所以你还是看例子吧。比如你做一个假设（ null hypothesis）：你的女性朋友平均身高2米，输入你统计的样本数据后，计算机给你返回的p值是0。03。这意味着如果你拒绝“女性朋友平均身高2米"这个结论,犯错的概率是0。03，小于0。05（人们一般认为拒绝一句话时犯错概率小于0.05就可以放心大胆地拒绝了）,这个时候你就可以拒绝原假设。如果计算机返回p值是0。9，那么你就会想，这说明拒绝原假设犯错概率高达90%,那么我就不应该拒绝原假设，即你应该认为你的女性朋友平均身高就是2米。至于什么是alpha呢，上面例子中0。05这个标准就是alpha值,这个标准是可以你自己人为改变的。 ==========================以下是补充内容=========================== 7

展开阅读全文