应用统计学
上QQ阅读APP看本书,新人免费读10天
设备和账号都新为新人

1.5 统计学的基本概念

统计学中的概念很多,其中有几个概念是经常要用到的,有必要单独加以介绍。这些概念包括总体和总体单位、样本和样本单位、变量和变量值、样本个数和样本容量。

1.5.1 总体、总体单位

总体是指在一定统计研究目的下的所有调查对象构成的全体(示例见图1-5)。它是由客观存在的、具有某种共同性质的许多个体组成的整体。构成总体的这些个别单位则称为总体单位。例如,要研究某市非公有制工业企业的生产经营情况,那么该市全部非公有制工业企业就构成一个总体,因为它们是需要调查的对象,只有从它们身上才能调查出企业的生产经营情况如规模、利润、员工人数等,该市每一家非公有制工业企业就是总体单位。

图1-5 一定研究目的下的统计总体示例

需要注意的是,在统计研究过程中,统计研究的目的和任务居于支配和主导地位,是考虑问题的出发点。统计总体取决于统计研究的目的和任务,有什么样的研究目的就要求有什么样的统计总体与之相适应,随后的统计调查、统计整理和统计分析都是围绕总体来进行。

总体具有同质性、差异性和大量性三个特点。

(1)同质性。同质性指总体中的全部单位至少在某一方面具有共同的特征。各个个体之所以可以放在一起形成统计总体,就是因为它们有着某一方面相同的性质。同质性是构成总体的基础。如图1-6所示。

图1-6 统计总体同质性的体现

(2)差异性。差异性指总体中的各个单位除了至少某一方面具有共同的特征之外,在其他方面存在差异性。如图1-6中所示,某市全部的工业企业这个总体中,除了具有属于“某市”这个共同点之外,这些企业在资产规模、主营业务销售额、资产负债率、每股收益率等方面都是不同的;某大学2016级全体学生这个总体中,除了同质性之外,这些学生在身高、民族、体重、经济状况、成绩等方面都是不同的。总体更多地是体现差异性。如果总体单位不存在差异性,也就是说,各个总体单位都是同质的,那么只要抽出其中一个单位进行研究,就能代表总体,从这个意义上说,统计研究就没有必要了。如果某市工业企业没有差异性,那么只需要抽其中一家企业了解情况就能知道总体,统计研究也就没有必要了。因此,总体的差异性是统计研究的基础。

(3)大量性。大量性是指相对于任务而言具有足够多数量的同质性个体(示例见图1-7)。只有一个单位的统计总体是不存在的。当然,根据研究目的的不同,总体也不一样,总体中所包含的总体单位的数量也就不同,一个总体究竟包含多少总体单位,最终取决于统计研究的目的。

图1-7 统计总体大量性的示例

1.5.2 样本、样本单位

统计研究的目的是确定总体的数量特征,但是有时总体的单位数太多或无限,不可能也没有必要对每个总体单位做调查,这时,就要借助样本研究总体了。样本是按照一定概率从总体中抽取并作为总体代表的一部分总体单位的集合体。

样本是统计学中非常重要的概念,对这一概念的理解要注意三个方面的问题:第一,构成某一样本的每一个样本单位必须取自某一特定总体,不允许总体之外的单位介入;第二,样本单位的抽取是按照一定概率进行的,具体样本的产生应该是随机的,必须排除人为主观因素的干扰;第三,样本是总体的一部分,带有总体的信息,因而能够推断总体,但是,样本毕竟只是总体的一个子集,且具有随机性,故由样本去推断总体会产生误差。

1.5.3 变量、变量值

表示现象某种特征或者属性的概念称为变量。变量的具体表现称为变量值。例如,“性别”是一个变量,其变量值是“男”或“女”; “身高”也是一个变量,其变量值可以是155厘米,178厘米,190厘米,…; “成绩”是一个变量,变量值可以是“优”“良”“中”等。

按照变量值的取值是否连续,变量分为连续型变量和离散型变量两种。连续变量指变量值是连续不间断的变量,其变量值可以取整数也可以取小数,变量值不能一一列举,如“零件尺寸”“身高”“资金”“利润”等。离散型变量指变量值之间是整数断开的,变量值只能取整数,不能取小数,离散型变量的取值是有限个数,可以一一列举,如企业数、产品数量、机器数都是离散型变量。

“男”或“女”是品质数据或分类数据,因此,其变量“性别”也就是品质变

量或分类变量。“身高”的取值是数值型数据,因此,变量“身高”是数值型变量。

1.5.4 样本容量、样本个数

样本个数是指在一个抽样方案中所有可能被抽取的样本的总数量。其具体数值随抽样的方式方法不同而不同,又与样本容量的大小有关。

样本容量是指一个样本中所包含的单位数,一般用n表示。它是抽样推断中非常重要的概念。样本容量的大小与推断估计的准确性有着直接的联系,即在总体既定的情况下,样本容量越大,其统计量的代表性误差就越小,反之,样本容量越小,其估计误差也就越大。

例如,从一个具有3个总体单位的总体中,无放回地抽取2个单位,则一共有6种可能性,即最多能得到6个样本,数值6就是样本个数。抽取的每个样本中含有2个单位,数值2就是样本容量,如图1-8所示。

图1-8 样本个数和样本容量的图解

在样本容量确定之后,样本的可能数目便完全取决于抽样方法,即样本个数取决于重复抽样还是不重复抽样。在实际统计研究中,往往只能获得一个样本,因此,我们应尽量多获得一些数据,使得这个样本中的样本容量尽量大。

图1-9为统计中的基本概念展示图。

图1-9 统计中的基本概念展示图