医学统计学与软件实现
上QQ阅读APP看本书,新人免费读10天
设备和账号都新为新人

第一节 抽样与抽样误差

抽样是从总体中获得样本,并通过样本信息推断总体。抽样必须遵循随机化原则,有抽样就必然有抽样误差,由随机抽样造成的样本统计量与总体参数的差异,称为抽样误差。抽样误差由个体变异和抽样所致,因个体变异普遍存在,所以抽样误差是不可避免的,但可以通过增大样本含量来减小抽样误差,抽样误差的大小用标准误来衡量。

一、基本概念

为何要进行抽样研究?抽样研究对于无限总体来讲,是唯一可行的方法;对有限总体也可节省人力和材料,增加研究工作的可行性。抽样研究的目的是希望通过样本提供的信息来推断总体特征。为了能正确利用样本去推断总体,并能正确地理解统计推断的结论,须对样本的抽样分布有所了解。

严格地说,任何实验结果都具有误差,误差自始至终存在于一切科学实验的过程之中。抽样误差是指由于样本的随机性而产生的误差。由于总体中的个体存在差异,在抽样过程中,即使从同一总体中随机抽取含量相等的若干样本,各样本统计量(如样本均数或率)相互间也会有所不同,这些样本间的差异同时反映了由样本算得的统计量与相应总体参数的差异。这种由于随机抽样而造成的样本指标与总体指标的差异,在统计上称为抽样误差。例如,由抽样而造成样本均数与总体均数之差称为均数的抽样误差。

二、抽样分布

我们知道,由总体中随机地抽取若干个体组成样本,即使每次抽取的样本含量相等,其统计量(如S)也将随样本的不同而有所不同,因而样本统计量也是随机变量,也有其概率分布。我们把统计量的概率分布称为抽样分布。这里仅讲述样本均数的抽样分布。

(一)样本均数抽样分布

设有一个总体,总体均数为μ,方差为σ2,总体中的变量记为x,将此总体称为原始总体。现从这个总体中随机抽取含量为n的样本,样本均数记为。可以设想,我们可以从原总体中,抽出很多甚至无穷多个含量为n的样本。由这些样本算得的均数有大有小,不尽相同,与原总体均数μ相比往往表现出不同程度的差异。这种差异是由随机抽样造成的,称为抽样误差。显然,样本均数也是一个随机变量,其概率分布叫做样本均数的抽样分布,见图5-1。

已经证明,变量x与变量的概率分布之间有下面两条性质:

1.若随机变量 x服从正态分布 Nμσ2),x1x2,…,xn是由 X 总体得来的随机样本,则统计量的概率分布服从正态分布Nμσ2/n)。

图5-1 均数的抽样分布

2.若随机变量x服从均数是μ,方差是σ2的非正态分布;x1x2,…,xn是由此总体得来的随机样本,则当样本n相当大时,统计量 的概率分布,逼近正态分布 Nμσ2/n),这就是中心极限定理。

上述两个性质保证了样本均数的抽样分布服从或者逼近正态分布。

中心极限定理告诉我们:不论x变量是连续型还是离散型,也无论x服从何种分布,一般只要 n > 30,的分布就近似于正态分布了,这就是为什么正态分布较之其他分布应用更为广泛的原因。

(二)t分布

由样本均数抽样分布的性质知道,若xNμσ2),则。将随机变量标准化得,则uN(0,1)。当总体标准差σ未知时,以样本标准差S代替σ所得到的统计量记为t。在计算时,由于采用S来代替σ,使得t变量不再服从标准正态分布,而是服从t分布(t-distribution)。

1.t分布的定义

如果随机变量XY相互独立,且XN(0,1),Yχ2df),则称随机变量。

服从自由度为df(或采用ν)的t分布(t-distribution),记为ttdf),其中t的取值范围是(− ∞, + ∞)。

t分布是W.S.Gosset于1908年用笔名Student在一篇论文中发表的,所以也称为“学生氏t分布”。

2.t分布的两条重要性质

(1) 如果从总体均数为μ,标准差为σ的正态总体中,随机抽取一个样本含量为n的样本,算出样本均数为,标准误为,则按式(5-2)计算的统计量t服从自由度为df = n − 1 的 t分布,即

(2) 如果从相互独立的总体均数分别为μ1μ2,而标准差都为σ的两个正态总体中,随机抽取样本含量分别为n1n2的两个样本,算出样本均数和标准差分别为s1s2,则按式(5-3)计算的统计量服从自由度为df = n1 + n2 − 2的t分布,即

式中的合并标准误,计算式为

3.t分布曲线特点

(1) t分布受自由度的制约,每一个自由度都有一条t分布曲线。

(2) t分布曲线以纵轴为对称轴,左右对称,且在t = 0时,分布函数取得最大值。

(3) 与标准正态分布曲线相比,t分布曲线顶部略低,两尾部稍高而平。df越小这种趋势越明显。df越大,t分布越趋近于标准正态分布。当n>30时,t分布与标准正态分布的区别很小;n>100时,t分布基本与标准正态分布相同;n→∞时,t分布与标准正态分布完全一致。

t分布曲线特征(图5-2):

图5-2 不同自由度的t分布曲线

4.t值的分布规律

对于不同自由度下t分布的两尾概率及其对应的临界t值,当df一定时,概率P越大,t的绝对值越小;概率P越小,t的绝对值越大。当概率P一定时,随着df的增加,临界t值在减小,当df = ∞时,临界t值与标准正态分布的临界u值相等。

例如,当df = 10 时,两尾概率等于 0.05 的临界 t值为 t0.05(10) = 2.228,其意义是:P(− ∞ <t < − 2.228) = P(2.228 < t < + ∞) = 0.025;P(− ∞ < t < − 2.228) + P(2.228 < t < + ∞) = 0.05,表示出现比 − 2.228小的t值和比2.228大的t值可能性为5%。

三、标准误

由样本平均数构成的总体称为样本均数的抽样总体,其均数和标准差分别记为是样本均数抽样总体的标准差,称为标准误差,简称标准误(standard error),它表示均数抽样误差的大小。

标准误计算方法为:,标准误大,说明各样本均数间差异程度大,样本均数的精确性低。反之,小,说明间的差异程度小,样本均数的精确性高。的大小与原总体的标准差σ成正比,与样本含量n的平方根成反比。从某特定总体抽样,由于σ是一个固定常数,所以只有增大样本含量才能降低样本平均数的抽样误差。

在实际工作中,总体标准差σ往往是未知的,因而无法求得。此时,可用样本标准差S估计σ,即以估计,一般记,称作样本标准误或均数标准误。样本标准误是平均数抽样误差的估计值。若样本中各观测值为x1x2,…,xn,则

例5-1

对某地36名成年男子进行红细胞数的抽样调查,s = 0.171 × 1012/L,求其标准误。

解:按公式(5-5)

1.CHISS软件计算标准误

(1)进入数据模块。

点击“数据”→“文件”→打开“数据库表”,找到文件名“b5-1.dbf”数据库→“确认”。

(2)进入统计模块进行统计计算。

点击“统计”→“统计描述”→“正态定量描述”。反应变量“红细胞数”→“标准误”→“确认”。

(3)进入结果模块:

查看结果,点击“结果”,如表5-1所示。

表5-1 正态资料描述性统计量

注:数据来自文件:b5-1.DBF。

2.SAS软件计算标准误

结果如图5-3:

图5-3 SAS软件中标准误的计算结果

3.Stata软件计算标准误

*导入样例b5-1的csv文件

import delimited E:\example\b5-1.csv,encoding(GBK)clear

*计算红细胞计数的算术平均数,标准差和标准误,结果如图5-4

tabstat 红细胞计数,stats(count mean sd semean)

图5-4 Stata软件中标准误的计算结果

4.SPSS软件计算标准误

此数据库已建立在文件夹中,文件名为:b5-1.sav。

首先,打开文件,单击“文件”→“打开”→“数据”,找到文件名“b5-1.sav”,点击“打开”。

第二,点击“分析”→“比较平均值”→“平均值”,如图5-5所示,弹出“平均值”对话框,如图5-6所示,在因变量列表中填入“红细胞数”,点击“选项”,弹出“平均值:选项”对话框,如图5-7所示,在单元格统计对话框中填入“个案数”“平均值”“标准差”“平均值标准误差”,点击“继续”,点击“确定”。

图5-5 数据编辑器窗口

图5-6 平均值对话框

结果,显示如图5-8所示。

应当注意,样本标准差与样本标准误是既有联系又有区别的两个统计量,式(5-5)已表明了二者的联系。二者的区别在于:样本标准差S是反映样本中各观测值x1x2,…,xn变异程度大小的一个指标,它的大小说明了对该样本代表性的强弱。样本标准误是样本均数的标准差,它是抽样误差的估计值,其大小说明了样本间变异程度的大小及精确性的高低。标准差与标准误区别,见表5-2。

图5-7 平均值:选项对话框

图5-8 正态资料描述性统计量

表5-2 标准差与标准误区别