
5.7 确定样本量的统计学方法
对于概率样本,可用统计公式计算所需样本量。这时需要的样本量与下列因素有关:
·抽样方法:一般都是根据简单随机抽样计算所需样本量,然后根据实际采用的抽样方法加以调整。
·要求的精度:要求的精度越高,所需的样本越大。
·总体内部的同质性:同质性越大,所需样本越小。
·时间、经费和人力:当资源比较充裕时,可抽比较大的样本。
·分组的详细程度:分组越细,需要的样本量越大。
用统计方法计算的是最终合格样本量,还要根据合格对象在抽样总体中的比例(发生率)、抽中的合格样本能完成研究的比例(完成率),以及时间、经费等因素加以修正,确定最初需要抽取的样本数。
5.7.1 估计总体均值时样本量的确定
对于简单随机抽样,为了估计总体均值,确定样本量的步骤如下:
1.确定允许误差,即样本均值和总体均值之间的最大允许差异(d)。
2.指定置信水平,即实际误差小于允许误差的概率,一般设为95%或99%。
3.确定与置信水平相对应的z值,与95%的置信水平相对应的z值约为2,与99%的置信水平相对应的z值约为2.6。
4.确定总体的标准差σ,通常根据经验数据获得,如果总体的标准差是未知的,可以根据下列方法作粗略的估计:正态分布的变量的标准差大约等于全距除以6;5级量表的标准差在1—1.5之间,7级量表的标准差通常在1.2—2.0之间。
5.用下列公式来确定样本量:

从上式可以看出:样本量与σ2成正比,所以总体的差异性越大,需要的样本量就越大;设定的置信水平越高则相对应的z值越大,因而样本量越大;允许误差d值越小,则样本量越大。
6.当估算的样本量相对于总体规模较大时,即占总体量的10%以上,则应该应用有限总体校正系数对所需的样本量进行调整,调整后的样本量

式中
n=没有经过有限总体校正的样本量,nc=经过有限总体校正的样本量。
假设置信水平为95%,允许误差为5,标准差为20,则需要的样本量

值得注意的是,只有当总体规模N相对较小时,总体的规模才会影响所需的样本量。对于以普通消费者为总体的研究来说,由于总体的规模很大,因此一般都不需要用有限总体校正系数。
5.7.2 估计总体比例时样本量的确定
在市场营销研究中,我们常常对总体中具有某一特征的个体的比例(例如购买某一品牌的消费者在总体中的比例)感兴趣,此时的统计量是比例而非均值,其样本量的确定方法与前面介绍的很相似,具体步骤如下:
1.确定允许误差,即样本比例与总体比例之间允许的最大误差d。
2.指定置信水平,通常也是95%或99%。
3.确定与置信水平相对应的z值,与95%的置信水平相对应的z值约为2,与99%的置信水平相对应的z值约为2.6。
4.估计总体比例 π,通常根据经验数据获得,如果实在无法估算,则可设为0.5,这时所计算的样本量最大。
5.用下式计算样本量:

6.当估算的样本量相对于总体规模较大时,即占总体量的10%以上,则应该用有限总体校正系数对所需的样本量进行调整,调整后的样本量

式中,
n=没有经过有限总体校正的样本量,
nc=经过有限总体校正的样本量。
例如,假设置信水平为95%,允许误差为0.05,总体比例为0.20,则需要的样本量

5.7.3 估计多个参数时样本量的确定
前面讨论了对单个参数进行估计时样本量的计算。但是,在进行营销研究时往往要估计多个参数。在这种情况下,样本量的计算应该考虑所有总体参数的估计值都能达到要求的精度。显然,需要针对每个参数,计算需要的样本量,然后取其中最大的那个样本数。
表5-2计算了在95%的置信水平下,按表中的允许误差估计家庭年收入、每月食品支出和每月娱乐支出这3个变量均值所需的样本量。从表中可以看出,为了将平均每月娱乐支出的抽样误差控制在要求的范围内所需的样本量最大。因此,最终的样本量将定为215。
表5-2 估计多个均值时样本量的确定

5.7.4 用其他概率抽样方法时样本量的确定
上述确定样本量的方法适用于简单随机抽样。当使用其他概率抽样方法时,样本量的计算比较复杂,但所依据的原则基本相同。必须指定允许误差和置信水平,然后计算在指定的置信水平将总体参数的估计值控制在允许误差以内所需要的样本量。在实际应用中,一般都先计算简单随机抽样所需的样本量,然后根据实际采用的抽样方法乘一个修正系数。通常系统抽样所需样本与简单随机抽样的接近;分层抽样所需的样本量较小;整群抽样的较大。有兴趣的读者可以参阅有关抽样方法的权威著作。