统计知识-样本误差培训课件.doc

资源描述

统计知识-样本误差学习—————好资料一、统计知识 1、请写出计算样本误差的公式，并标明每一个字母的统计意义。其中：P为比例值，n为样本量， Z为在标准正态发布下，对应于不同置信区间下的临界值，数值代表该点到均值的距离是标准差的倍数，Z值可以通过查找统计表“标准正态分布右侧尾部累积概率表”获得。如取置信区间为95％，则右侧尾部累积概率为1/2*(1-95%) =0.025,查表Z＝1.96。置信区间取值越高（如99％），则右侧尾部面积越小（0.005），临界Z值也越大（距离均值的距离越远）。和客户的沟通通常是：写出这个核算样本误差的公式，然后说明：样本误差与概率分布（标准差）有关，对应p（1－P）值，也与样本量有关，样本量越大（当然费用越高），误差越小，但两者并非线性关系，也即增加样本量，并不能等比减小样本误差，因此，超过一定的样本量，成本效益降低，我们会建议相对合适的样本量（如300个）。核算样本误差的方法：通常在计划书中核算出给定置信度的最大样本误差，因为我们当时并不知实际的标准差，就采用最保守的方法来核算。通常取95％置信度时的临近Z值（1.96），p=0.5使得标准差最大，来核算最大样本误差。其实，置信度与置信区间有不同，取95％置信度时，置信区间为µ（总体均值）＋－1.96*SE（标准误差），也即今后测试到的数据，落在这个置信区间的可能性是95％，也有5％的出错可能，并未落在这个区间。如样本量为300，则可计算出95％置信度下的最大样本误差为5.7％，如调研结果是**支持率50％，则区间为50％－5.7％～50％＋5.7％，即44.3％～55.7％，全面描述的语言是：我有95％把握说，**支持率在44.3％～55.7％之间，也意味着，有5％的可能是错的（不在这个区间里）。如取99％置信度（出错可能更小），则区间更大，即描述为：我有99％把握说，**支持率在“42.6％～57.4％”之间 2、请计算出以下样本量时，95％置信度下的最大样本误差：样本量最大样本误差 150 8.0％ 300 5.7％ 850 3.4％按照前面所说公式核算，这在以后的计划书中，取不同样本数时需要了解。虽然研究部有常用的“样本量vs最大样本误差”对应表，但可能在客户处，突然提出了不同的样本数，需要你及时算出，虽然，你可以取出接近的样本数来说明，不过，感觉就没有那么专业。 3、如在300个样本时，完全随机抽样的调研结果是：A品牌市场占有率为8％（请注意不是50％），那么，在统计上，完整的描述是：从调研数据结果来看，有95％把握说：A品牌市场占有率在4.9％～11.1％之间。计算方式：这里P不应取50％算最大误差，而算实际的样本误差，p＝8％，1－p＝92％，n＝300，因此，按公式算出95％置信度的样本误差（绝对误差）＝3.1％（显然小于5.7％），而相对误差＝3.1% / 8% = 38.8% 因此，绝对误差是： 3.1％相对误差是： 38.8% 如果B品牌市场占有率为50％，则绝对误差是：5.7％，相对误差是： 11.4% 在这里，我们可以看到，在渗透率较低时，虽然绝对误差看起来不大，但相对误差很大。 A品牌占有率的相对误差为38.8%,表示：如这一个月测试的品牌占有率与上个月占有率比值即使变化了30％（不到38.8％），数据结果上都表示为：没有显著性差异，显然，对一些监测市场细微变化的客户来说，这个误差太大，必须通过增加样本量才能解决。 4、定量研究中，最小的统计样本数是： 30 在调研方案设计中，如果涉及细分群体的配额，难度大或成本高，通常会优先考虑30个样本，偶尔深访条件许可，也会考虑30个。在定量报告中，如果细分后涉及到样本量小于30的数据结果，即使用图表呈现（通常至少大于20个），也多加一句：“样本量未达到最小统计的样本数，结果仅供参考”，以免读者有歧义。诸位，目前客户都有兴趣了解或表示懂得统计知识，可能最常知道的是95％置信度和30个最小统计样本两个内容，希望诸位和客户对答中，能明显表示出“比客户懂得更多”。精品资料

展开阅读全文