中国儿童维生素A、E缺乏与呼吸道感染
上QQ阅读APP看书,第一时间看更新

1.7 估计全国儿童血清维生素水平总体分布的思路

如前所述,LIS数据的样品主要来自医院的两个科室,大部分来自儿科,小部分来自儿童保健门诊。按现行国内医院的设置规则,中小规模的非儿童医院(综合性医院)一般设有儿科的,则通常不再细分;专门的儿童医院或儿科规模足够大的大医院大多设有儿童保健门诊及其他儿童病症科室。因此,儿童保健门诊依一般挂号分诊的规程,其就诊儿童属于健康的或至少是没有反复呼吸道感染症状者,对低龄儿童尤其是如此,其构成相对单纯。而儿科的就诊儿童则构成复杂,既包括具有症状(含反复呼吸道感染症状)者,也包括一些无症状的健康体检儿童。
课题组数据由于来自全国各地水准较高的儿童医院和综合医院的儿科,虽然也有部分就诊儿童属于无症状者,但显然具有症状者偏多,相对于中国儿童总体而言,以此作为样本,其代表性明显不足,如果将其视同简单随机抽样,则势必存在很大风险。
为了准确推断中国儿童血清维生素A、E水平的总体分布,考虑:
(1)将LIS系统的所有儿童保健门诊有效样品近似看作非反复呼吸道感染儿童的简单随机样本。
(2)将课题组数据的反复呼吸道感染患儿(既包括就诊时有症状也包括没有症状)的全部样本作为反复呼吸道感染症状儿童的简单随机样本。
(3)将中国儿童总体看作两层,一层为具有反复呼吸道感染症状儿童,一层为非反复呼吸道感染儿童。
(4)利用许多医学文献载明的中国儿童患有反复呼吸道感染症状者比例为20%的结论,将反复呼吸道感染层的总体层权设定为20%,相应的非反复呼吸道感染症状层的总体层权设定为80%;其他儿科疾病没有纳入考虑范围内,因此就全国而言,健康儿童的比例应该不高于80%,这将使推算产生一定但不大的偏差。
(5)利用分层随机抽样理论,将两个独立随机样本的分布及其分布特征按各层的总体层权进行加权计算获得总样本的分布及其分布特征。
(6)以2016年底的儿童人口作为总体规模(是目前已经公布的最新人口统计数据,同时又比较接近跨越几年的数据采集期的中间点)。
由于数据并非依照事先的抽样设计方案进行抽样采集,所以抽样模型属于事后指定比例分层随机抽样。
本报告的主要内容之一是估计全国儿童血清维生素水平的分布,为了估计其估计精度,对总体分布估计所需样本量的讨论是非常必要的。但关于总体分布估计的样本量确定目前的理论是不足的,它不同于总体比例估计与总体均值估计。本报告所采用的公式1来自中国人民大学统计学院杜子芳教授的研究成果。
鉴于分层抽样的设计效应小于1,根据简单随机抽样的总体分布估计样本量确定公式进行样本量确定,其结果具稳健性。
其中, r 0代表各个直方的相对误差, p 1代表众数组的概率, L代表组数(根据现行标准类数定为5 ), =1.96, N代表总体总数(由于课题采集数据跨越几年,2016年比较接近数据采集期的中间点,故选取国家统计局网站公布的2016年抽样调查的全国儿童数)。参数确定参考了报告中图9的结果。以此计算,若相对误差 r 0取4%时,样本量不低于28 750。计算表明,即使对样本量只有30 000左右的反复呼吸道感染儿童层总体而言,也是满足要求的。
使用样本中血清维生素A数据进行聚类分析时,依据BIC最小准则确定最佳聚类个数也为5,详见附录。
本报告样本量比较大,因此样本比例经过标准化后可视为服从正态分布。
图9 反复呼吸道感染儿童与健康儿童血清维生素A水平(mg/L)分布对比
需要指出的是,这个公式是基于频率最小组因而绝对误差最小情形导出的,其依据的逻辑是,在相对误差相等的条件下,如果样本量能够保证直方图中最低矮的直方都可准确估计出来,其他的直方估计当更可靠,那么总体分布估计或总体直方图估计就不成问题。