
二 方法
(一)出生性别比观测值的置信区间
通常情况下,θ未知,使用出生人数n,出生男婴数量m,根据统计方法推算出生性别比及其区间。使用第二章给出的变量及参数的表达,可以得到,出生性别比的方差
。
由于
使用泰勒展式得到观测值SRB的近似方差:
得到SRB的95%置信区间:
(二)使用贝叶斯推断估计男婴出生概率和出生性别比
针对出生性别比估计,可以采用贝叶斯方法(Gelman et al.,2014;王广州,2010)。性别鉴定和性别选择性流产女婴会提高男婴出生的概率,假定经过性别选择性人工流产之后男婴出生概率为α,使用贝叶斯方法估计α,其中男婴数量m服从二项分布b(n,α),即:
使用均匀分布U(0,1)作为α的先验信息,其先验分布为:
可以得到α的后验分布为Beta(m+1,n-m+1),即:
其中。
估计值α的95%后验区间:
因为α~Beta(m+1,n-m+1),则。
其中Z分布的密度函数是。
出生性别比的95%后验区间是:
假若考虑到中国的出生性别比是偏高的,可以采用单尾检验。本章中采用的依然是双尾检验。
(三)影响出生性别比的因素
瞒报漏报、流产是影响出生性别比的主要因素。在自然的没有人为因素干预的情况下男婴出生概率为θ。假定男婴流产比例为g,女婴流产比例为r,男婴漏报比例为u,女婴漏报比例为k×u,其中k是未知系数。则
虽然普遍认为瞒报漏报影响了出生性别比,但是关于瞒报漏报影响出生性别比的程度,并不能说清楚(Hull,1990)。到底是男婴漏报多还是女婴漏报多尚存在争议。本章假定男婴和女婴瞒报漏报水平相同,那么这个因素可以从本章设计的公式中删去,从而简化公式(3-9)。下面具体讨论流产问题。
(四)流产比例范围
在婴儿流产中只考虑女婴流产的情况,公式(3-9)可以简化为公式(3-10),男婴出生的概率为:
根据公式(3-7)与公式(3-10)得到r的95%置信区间:
通常情况下出生性别比的正常范围是102~107,所以把对应于102的θ值对应的上限作为性别选择性流产的上限,而对应于107的θ值对应的下限作为性别选择性流产的下限。
公式(3-11)只假定了女婴被流产,事实上男婴和女婴都被流产。根据原国家人口和计划生育委员会2007年在部分省份进行的流产手术调查,2000~2006年平均流产男胎与女胎之比为72.25∶100(蔡菲,2009)。由于该调查没有给出总的出生数量,所以算不出男胎及女胎的流产比例。假定出生数量大体相同,那么男胎流产比例为女胎的0.7225,也就是女胎流产比例为男胎流产比例的1.384倍。
如果同时考虑男胎和女胎流产,此时男婴出生的概率为:
根据公式(3-7)与公式(3-12)得到男婴流产比例g的95%置信区间:
女婴流产比例β×g的95%置信区间:
对应于102的θ值对应的上限作为性别选择性流产的上限,而对应于107的θ值对应的下限作为性别选择性流产的下限。
除了用以上公式进行计算以外,笔者还使用Monte Carlo模拟的方法,对公式(3-1)和公式(3-6)进行了Monte Carlo模拟,从而也得出了出生性别比的区间。比较发现和用公式直接测算得到的结果差别不大,限于篇幅本章没有列出这些使用Monte Carlo模拟得到的结果。
本章所使用的数据介绍见第二章。需要说明的是,1990年数据引用的是1990年人口普查数据中的出生人数,实际包括了1989年全年和1990年上半年数据。所以该数据比1990年实际的生育数量要高。