资源描述
统计知识-样本误差
学习—————好资料
一、 统计知识
1、 请写出计算样本误差的公式,并标明每一个字母的统计意义。
其中:P为比例值,n为样本量,
Z为在标准正态发布下,对应于不同置信区间下的临界值,数值代表该点到均值的距离是标准差的倍数,Z值可以通过查找统计表“标准正态分布右侧尾部累积概率表”获得。如取置信区间为95%,则右侧尾部累积概率为1/2*(1-95%)
=0.025,查表Z=1.96。置信区间取值越高(如99%),则右侧尾部面积越小(0.005),临界Z值也越大(距离均值的距离越远)。
和客户的沟通通常是:
写出这个核算样本误差的公式,然后说明:
样本误差与概率分布(标准差)有关,对应p(1-P)值,也与样本量有关,样本量越大(当然费用越高),误差越小,但两者并非线性关系,也即增加样本量,并不能等比减小样本误差,因此,超过一定的样本量,成本效益降低,我们会建议相对合适的样本量(如300个)。
核算样本误差的方法:
通常在计划书中核算出给定置信度的最大样本误差,因为我们当时并不知实际的标准差,就采用最保守的方法来核算。
通常取95%置信度时的临近Z值(1.96),p=0.5使得标准差最大,来核算最大样本误差。
其实,置信度与置信区间有不同,取95%置信度时,置信区间为µ(总体均值)+-1.96*SE(标准误差),也即今后测试到的数据,落在这个置信区间的可能性是95%,也有5%的出错可能,并未落在这个区间。
如样本量为300,则可计算出95%置信度下的最大样本误差为5.7%,如调研结果是**支持率50%,则区间
为50%-5.7%~50%+5.7%,即44.3%~55.7%,全面描述的语言是:
我有95%把握说,**支持率在44.3%~55.7%之间,也意味着,有5%的可能是错的(不在这个区间里)。
如取99%置信度(出错可能更小),则区间更大,即描述为:我有99%把握说,**支持率在“42.6%~57.4%”之间
2、 请计算出以下样本量时,95%置信度下的最大样本误差:
样本量
最大样本误差
150
8.0%
300
5.7%
850
3.4%
按照前面所说公式核算,这在以后的计划书中,取不同样本数时需要了解。虽然研究部有常用的“样本量vs最大样本误差”对应表,但可能在客户处,突然提出了不同的样本数,需要你及时算出,虽然,你可以取出接近的样本数来说明,不过,感觉就没有那么专业。
3、 如在300个样本时,完全随机抽样的调研结果是:A品牌市场占有率为8%(请注意不是50%),那么,在统计上,
完整的描述是:
从调研数据结果来看,有95%把握说:A品牌市场占有率在4.9%~11.1%之间。
计算方式:
这里P不应取50%算最大误差,而算实际的样本误差,p=8%,1-p=92%,n=300,因此,按公式算出95%置信度的样本误差(绝对误差)=3.1% (显然小于5.7%),而相对误差=3.1% / 8% = 38.8%
因此,绝对误差是: 3.1% 相对误差是: 38.8%
如果B品牌市场占有率为50%,则绝对误差是:5.7%,相对误差是: 11.4%
在这里,我们可以看到,在渗透率较低时,虽然绝对误差看起来不大,但相对误差很大。
A品牌占有率的相对误差为38.8%,表示:如这一个月测试的品牌占有率与上个月占有率比值即使变化了30%(不到38.8%),数据结果上都表示为:没有显著性差异,显然,对一些监测市场细微变化的客户来说,这个误差太大,必须通过增加样本量才能解决。
4、 定量研究中,最小的统计样本数是: 30
在调研方案设计中,如果涉及细分群体的配额,难度大或成本高,通常会优先考虑30个样本,偶尔深访条件许可,也会考虑30个。
在定量报告中 ,如果细分后涉及到样本量小于30的数据结果,即使用图表呈现(通常至少大于20个),也多加一句:“样本量未达到最小统计的样本数,结果仅供参考”,以免读者有歧义。
诸位,目前客户都有兴趣了解或表示懂得统计知识,可能最常知道的是95%置信度和30个最小统计样本两个内容,希望诸位和客户对答中,能明显表示出“比客户懂得更多”。
精品资料
展开阅读全文