性别失衡与婚姻挤压
上QQ阅读APP看书,第一时间看更新

四 正常情况下出生性别比的范围

通常认为出生性别比的正常范围是102~107,超出此范围便属异常。但是如果不考虑随机样本的抽样误差而仅仅以出生性别比的大小作为衡量标准,则缺少统计学意义。中国的出生性别比数据来源较多,样本量差别较大,如果仅凭观测到的出生性别比大小进行比较,忽视由样本大小差异所带来的误差,分析结果未必可靠,有时甚至得出错误的结论。乔晓春(2006)认为:总体规模太小的地区不适于单独计算出生性别比;要想单独计算出生性别比,且计算出的结果是有意义的,出生婴儿应该在3000名以上。

出生男婴或女婴的比例是离散的多重伯努利随机试验,以n表示样本量,θ表示出生男婴的概率,1-θ表示出生女婴的概率,M表示出生的男婴数量,F表示出生的女婴数量,p表示样本量n 中出生男婴比例,SRB表示出生性别比。

以下使用两种方法求解给定样本量之下,没有性别选择性流产的正常状况下出生性别比(102~107)的置信区间范围,一种是二项分布方法,另外一种是卡方检验的方法。

(一)二项分布

在出生时男婴的概率θ和样本量n给定的情况下,男婴比例p的标准误为:

出生男婴比例95%置信度下的置信区间为:

根据公式(2-2)和公式(2-3)可以计算出给定θ和样本量n的出生性别比范围:

通常,出生性别比的正常范围为102~107,那么把对应于102的θ带入公式的下限表达式,可以得到出生性别比范围的一个下限,把对应于107的θ带入公式的上限表达式,可以得到出生性别比的一个上限。从而可以得到在没有选择性流产和给定样本量情况下,出生性别比的一个正常范围。

(二)χ2检验

干建平和徐春(2000)考虑了χ2检验来判断出生性别比的区间,检验统计量为,其中O为实际值,T为理论值,TM表示理论出生男婴人数,TF表示理论出生女婴人数。根据χ2分布分位数表自由度为1时的χ2置信度为95%的临界值为3.84,则有如下关系:

由公式(2-5)得到M与F的值:

出生性别比为:

出生性别比的95%置信区间为:

一般情况下,出生性别比的正常范围是102~107,设理论值,则利用χ2检验的置信度为0.95时,出生性别比的范围是:

(三)出生性别比的正常范围

使用上面的公式,根据1982年以来调查的样本量,得到 102~107这一范围内的出生性别比的区间估计,全国、城市、城镇和农村人口的数据见表2-1、表2-2、表2-3和表2-4。具体使用的数据是:1987年、1989年、1991~1999年、2001~2004年、2006~2009年、2011~2014年和2016年的出生数据来自历年《中国人口和就业统计年鉴》中登记的全国人口变动情况抽样调查数据中的全国分年龄性别人口数0岁数据;1990年、2000年、2010年的出生数据来自对应的中国人口普查资料,使用的是生育中的出生人口数据。1990年的出生数据指的是1990年人口普查登记的出生数据,包括1989年全年和1990年上半年也就是1989年1月1日至1990年6月30日期间出生的数量。2005年、2015年的出生数据来自对应的全国1%人口抽样调查资料出生人口数据;1982年的出生数据来自1982年人口普查资料中0岁人口数据。

由表2-1、表2-2、表2-3和表2-4可以看出以下两点。第一,即使没有性别选择性流产的干预,正常出生性别比的范围也会因为受到样本量大小的影响而变化很大。在普查年份或者1%人口抽样调查的年份,样本量较大,出生性别比的区间很小。而别的年份调查样本量较小,给出的出生性别比置信区间较大。例如表2-3显示,1990年由于全国人口普查样本量较大,对应于107的出生性别比受到样本量影响的出生性别比范围为106.71~107.29,区间宽度较小。但是,在另外一些年份比如1991年、1992年、1993年、1994年,样本量较小,测算的对应于正常范围的出生性别比的区间较大。第二,即使观测到高于107的出生性别比,也不能判断出存在性别选择性流产。比如对应于107的出生性别比的区间,1994年为91.05~125.85,那么即使实际观测到的出生性别比为125,也很难据此判断存在性别选择性流产,而可能只是调查样本量太小随机误差很大所致。

表2-1 正常情况下全国人口出生性别比范围

表2-2 正常情况下城市人口出生性别比范围

表2-3 正常情况下城镇人口出生性别比范围

表2-4 正常情况下农村人口出生性别比范围