统计理论与实务(第二版)
上QQ阅读APP看本书,新人免费读10天
设备和账号都新为新人

第二节 统计分组及次数分配

一、统计分组的意义和作用

统计分组是根据统计研究的需要,将总体按照某种标志划分为性质不同的若干组成部分的一种统计方法。统计分组具有两个方面的含义:对总体而言是“分”,即将总体中的全部单位按照它们标志表现的差异性划分为不同的部分;对于个体而言是“合”,即将性质相同的个体组合起来。统计分组的目的,是保证组内的同质性和组间的差异性,以便运用统计方法研究总体的数量表现和数量关系,把统计研究对象的本质特征反映出来。

统计分组的作用表现在以下方面。

(一)区分事物的类型

统计总体中的各个单位,一方面由于在某一或某些标志上具有彼此相同的性质,可以被集合在同一组中;另一方面由于在其他标志上具有彼此相异的性质,又可以被区分为不同的组。也就是说,统计分组是把总体划分为各种不同性质的类型。例如,我国某年规模以上工业增加值分类表,见表3.2。

表3.2 某年规模以上工业增加值分类表

(二)揭示现象的结构

在统计分组的基础上,通过计算各组指标在总体中占的比重,可以反映现象内部的结构,分析各组数量对总体数量的影响。如从表3.2可以算出不同经济类型的企业增加值的构成情况。

(三)揭示现象之间的依存关系

一切现象总是处在相互联系相互依存中,通过分组可以将现象之间在数量上相互影响的作用、程度和规律反映出来。例如,要揭示耕地深度与亩产量是否存在依存关系,可以利用对耕地深度分组的方法,观察不同耕地深度的亩产量,形成如下对应关系,见表3.3。

表3.3 耕地深度与亩产量统计表

可见,在灌溉条件与施肥量基本相同的情况下,耕地深度与产量之间的依存关系。

二、统计分组的方法

(一)统计分组的关键

统计分组的关键在于选择分组标志和划分各组的界限。

选择分组标志,就是确定将总体区分为各个不同性质组的标准或依据。分组标志一经选定,就要突出总体在此标志下的性质差异,而将总体在其他标志下的性质差异掩盖起来。任何事物都有许多标志,如果分组标志选择不当,分组结果必然不能正确反映总体的数量特征和性质特征。

划分各组界限,就是要在分组标志的变异范围内,确定组与组之间的性质界限或数量界限。分组界限一经选定,就要突出总体各组间的性质差异,而将各组内单位的性质差异掩盖起来。如果分组界限划分不当,就会混淆各组的性质差别。这就要求我们在分组时应根据统计研究目的,在众多的标志中认真挑选能够反映总体性质特征的标志;在分组标志较大的变异范围内,仔细划定能够区分各组性质差别的界限。

(二)统计分组的方法

1.品质标志分组和数量标志分组

统计分组按照所选择的分组标志的性质不同分为品质标志分组和数量标志分组。

品质标志分组就是选择反映事物属性特征的品质标志作为分组标志,并在品质标志的变异范围内确定各组界限,将总体划分为若干性质不同的组成部分。有些品质标志分组比较复杂,往往存在着两种性质变异间的过渡形态,边缘不清,使组限不易划分。例如,工业部门分类、工业产品分类等。为统一分组口径,对重要的品质标志分组,要按编定的标准分类目录进行分组。

【案例1】

中华人民共和国国民经济行业分类标准(GB/T 4754—2017)

本标准采用经济活动的同质性原则划分国民经济行业。即每一个行业类别按照同一种经济活动的性质划分(品质标志分组)。将国民经济行业划分为门类、大类、中类和小类四级,共有20个门类、97个大类、473个中类和1381个小类。20个门类、97个大类如下。

数量标志分组就是选择反映事物数量特征的数量标志作为分组标志,并在数量标志的变异范围内确定各组界限,将总体划分为性质不同的若干组成部分。数量标志的具体表现为许多不等的变量值,它们虽能准确地反映现象数量上的差异,却不能明确地反映现象性质上的差异。按数量标志分组的目的并不是单纯确定各组的数量差异,而是要通过数量变化来区分各组的不同性质类型。因此,在分组时应先确定总体在分组标志上有多少种性质不同的组成部分,然后再研究确定各组成部分之间的数量界限。例如,学生的学习程度可分为较差、一般、较好三个层次。若按学习成绩分组,可分为60分以下,60~80分,80分以上三个组。有些复杂的数量标志分组也需要按编定的标准分类目录进行分组,如大中小企业的划分。

【案例2】

统计上大中小微型企业划分标准(2017)

2.简单分组和复合分组

统计分组按照分组标志的多少不同分为简单分组和复合分组。

简单分组是将统计总体按某一个标志进行的分组。例如,对某企业全体职工按年龄和文化程度进行的分组都属于简单分组。

对同一个总体选择两个或两个以上的标志分别进行简单分组,就形成平行分组体系。它的每一次分组,同组内的单位只能固定一个标志的影响。

复合分组是按两个或两个以上标志层叠起来进行的分组。例如,对全体学生按性别和学习成绩进行的复合分组,见表3.4。

表3.4 按性别和学习成绩进行的复合分组

复合分组形成复合分组体系。它的特点是:第一次分组同组内的单位只能固定一个标志的影响;第二次分组则同时固定两个标志的影响;最后一次分组时,则所有分组标志的影响全部被固定。也就是说,分到一个组的单位在所有分组标志上的表现都是相同的。

三、次数分配

在统计分组的基础上将总体的所有单位按组归类,并按一定顺序排列,形成总体中各个单位在各组间的分布,称为次数分配或分配数列。分配数列由两个要素构成,一是总体的各个组;二是总体单位在各组相应的分配次数。各组的分配次数是指分布在各组的总体单位数,又叫频数。各组次数与总次数之比称为频率。

分配数列按照分组标志的不同,可分为品质数列和变量数列。变量数列又分为单项变量数列和组距变量数列。

(一)品质数列

又称属性分配数列,是按品质标志分组形成的分配数列。品质数列的两个构成要素是用文字表述的各个组和各组的频数或频率。例如,全国第二次经济普查中建筑业按企业法人的性质划分形成的数列为品质数列,见表3.5。

表3.5 建筑行业企业法人单位和从业人员的构成

(二)单项变量数列

按数量标志分组形成的分配数列称为变量数列。变量数列的两个构成要素是用变量值表现的各个组和各组的频数或频率。

单项变量数列是将每一个变量值作为一个组形成的分配数列,它适应于变量值较少的离散型变量。例如,某专科学校所有学生按年级分组的数列,见表3.6。

表3.6 某高校各年级学生构成

(三)组距变量数列

组距变量数列是将一个区间内的所有变量值归为一组形成的分配数列,它适用于变量值变动较大的离散型变量或连续型变量。例如,某企业的全体职工按年龄分组的数列,见表3.7。

表3.7 某企业职工年龄构成

组距变量数列的编制,一般分为四个步骤。

1.计算全距

全距是总体中最大标志值和最小标志值之间的差距。它反映了总体中标志值的变动范围。即全距=最大标志值-最小标志值。

2.确定组数和组距

组数的多少与组距的大小相互制约,组数增多,组距就会变小;组数减少,则组距就会扩大。在确定组数和组距时,应力求符合总体的实际情况,能够把总体单位分布的特点充分反映出来。

组数不宜过多也不宜过少,如果组数过多,分组过细,就容易将属于同类性质的单位划分到不同的组;如果组数过少,就会把不同性质的单位归并到一组,可能混淆不同类单位的性质界限。因此,组数的确定应考虑总体内部的定性分析。就所选择的分组标志而言,总体有几种不同的性质表现,一般就分为几组。

组距是各组内最大标志值和最小标志值的差距。组距数列中各组的组距都相等,称为等距数列,适用于标志值变化比较均匀的总体;若各组组距不相等,称为异距数列,适用于标志值变化不均匀、不规则的总体。异距分组时的组距需要针对每一组具体确定;等距分组时的组距可用全距除以组数来确定,一般取10或5的整倍数。

3. 确定组限

组距两端的数值称为组限。每组的起点值称为下限,终点值称为上限。组限的确定与最小、最大标志值以及变量的类别密切相关。

最小组的下限应小于等于最小的标志值,最大组的上限应大于等于最大的标志值,以便把所有单位都包含在分配数列中。

连续型变量应采用重叠组限,即邻组中较小组的上限与较大组的下限应当相等。例如,学生按身高分组为:1.6米以下,1.6~1.7米,1.7~1.8米,1.8米以上。因为连续型变量的数值不能一一列举,在两个数值之间可能有无限多个数值,为避免遗漏,必须采用重叠组限。若遇到某个单位的标志值刚好等于组限时,一般把此单位归并到作为下限的那一组,即“上限不在内”原则。如把身高1.7米的学生归到第三组。

离散型变量的数值可以一一列举,故邻组中较小组的上限与较大组的下限可以不重叠,即各组的上下限都可以用不等的整数数值表示。例如,某市工业企业按职工人数分组为:500~999人,1000~1999人,2000~2999人等。当然,离散型变量的组限也可采用重叠组限。

4.汇总并计算各组次数

编制变量数列不仅要按变量值的大小顺序列出总体划分的各个组,同时还要列出相应各组的单位数。各组的单位数表示该标志值在各组出现的次数。在变量数列中,标志值构成的数列表示标志值的变动幅度,而次数构成的数列则表示相应标志值的作用强度。

另外,在变量数列中常常需要计算组中值。组中值是上限和下限的中点数值,组中值=(上限+下限)÷2。如果组距数列的最小组和最大组采用开放式组限,即用“多少以下”或“多少以上”表示,那么,这两个组的组中值可参照邻组的组距来确定。

组距数列掩盖了分布在各组内所有单位的实际标志值。为了反映各组标志值的一般水平,统计工作中往往假定当各组标志值在本组范围内呈均匀分布或在组中值两侧对称分布时,组中值就是各组标志值的一般水平的代表值。显然这与实际资料是略有出入的。

【案例3】

某班40名学生统计课程的考试成绩(分)为:89 88 76 99 74 60 82 60 89 86 93 99 94 82 77 79 97 78 95 92 87 84 79 65 98 67 59 72 84 85 56 81 77 73 65 66 83 63 79 70,要求编制组距变量数列,以反映考试成绩的分布情况。

第一步:计算全距

全距=99-56=43(分)

第二步:确定组数和组距

通常,学习成绩划分为优秀、良好、中等、及格、不及格五个性质不同的类型。为了准确反映40名学生考试成绩的不同性质分布特征,分为5组最为适宜。同时,每位学生的考试成绩比较均匀,可以编制等距数列。组距=全距÷组数=43÷5=8.6分。为计算方便,组距取5或10的整倍数,故组距定为10。

第三步:确定组限

最小组的下限应小于等于最小的标志值,即第一组的下限小于等于56分。考虑到组距为10分,第一组的下限确定为50分最为合适,能够保证把性质相同的单位归并到一组。最大组的上限应大于等于最大的标志值,即最后一组的上限大于等于99分。

因考试成绩未出现小数,为离散型变量,各组组限可采用不重叠组限,也可采用重叠组限。从数列整齐美观考虑,本题采用重叠组限,即50~60,60~70,70~80,80~90,90~100。

第四步:汇总各组次数

把每个学生归入对应组内,两个60分的学生归入第二组,一个70分的学生归入第三组,所编制的分配数列见表3.8。数列显示,该班学生统计课程的考试成绩比较集中的分布在70~90分之间,考分在此范围的学生占57.5%。

表3.8 某班学生统计学考试成绩表