
1.4 统计数据类型
统计数据是对现象进行测量所得到的结果。比如,对班级实训课的五档制成绩进行测度,得到优、良、中、及格、不及格的成绩数据;对股票价格变动水平的测量可以得到股票价格指数的数据;对某省利用外商直接投资情况进行测度,可以得到FDI数据;对人口性别的测量可以得到男或女这样的数据。下面从不同角度说明统计数据的分类。
1.4.1 分类数据、顺序数据、数值型数据
按照所采用的计量尺度不同,可以将统计数据分为分类数据、顺序数据和数值型数据。
1.分类数据
分类数据是指只能归于某一类别的文字型数据。它是对事物进行分类的结果,数据表现为类别。例如,人口按照性别分为男、女两类;企业按照所有制性质分为私有企业、国有企业、外商投资企业;人口按照民族分为汉族、壮族、回族等。这些都属于分类数据。
分类数据没有优劣之分,支持的运算符号为等号“=”、不等号“≠”。例如,性别的取值有男性和女性。“男性”和“女性”之间没有优劣之别,他们是平等的,因此支持的运算符号要么是“男性≠女性”“男性=男性”或者“女性=女性”。
2.顺序数据
顺序数据是指只能归于某一有序类别的非数字型数据。顺序数据虽然也是类别,但是这些类别是可以排序的,即有优劣之分,但是它们之间具体的差异是无法计算的。比如产品分为一等品、二等品、三等品、次品等;考试成绩分为优、良、中、及格、不及格等;受教育的程度分为小学、初中、高中、大学及以上;对某事物的评价可以分为非常满意、满意、一般、不满意、非常不满意等。我们拿考试成绩来说,“优”比“良”好,只是“优”比“良”具体优异多少是无法计算的;满意程度而言,“非常满意”肯定比“一般”要好,只是具体数值无法进行计算。因此,顺序尺度的数据支持的运算符号为<、>、≤、≥以及=和≠。此类运算是成立的,如优>及格、不满意<非常满意、初中≠高中。
3.数值型数据
它是按照数字尺度测量的观察值,其结果表现为具体的数值。现实中处理的大多数数据都是数值型数据。数值型数据支持所有的运算符号,如≤、≥、≠、+、-、×、÷、幂、指数运算等。国内生产总值(GDP)、身高(cm)、体重(kg)、股票价格(元)、销售量(台)就是数值型数据。
分类数据和顺序数据说明的是事物的品质特征,通常都是用文字进行表述,因而也可以统称为品质数据或定性数据;数值型数据说明的是现象的数量特征,通常都是用数值来表述,因此也可以称为定量数据或数量数据。三者的具体特点及支持的运算见图1-3。

图1-3 分类数据、顺序数据和数值型数据的图解
1.4.2 截面数据、时间序列数据、面板数据
按照被描述的现象与时间的关系,可以将统计数据分为截面数据、时间序列数据和面板数据。截面数据是在相同或近似时间点上收集的数据,这类数据通常是在不同的空间或个体上获得的,用于描述现象在某一时刻的变化情况。比如,2017年我国各地区的地区生产总值数据、某日有色金属板块中的股票收盘价数据、本学期某课程学生的考试成绩数据,这些都是截面数据。时间序列数据是指在不同的时间收集到的相同空间或个体的数据,这类数据是按时间顺序收集到的,用于所描述现象随时间变化的情况。比如1999—2017年我国的国内生产总值数据、江西铜业股票1—5月的每日收盘价、某学生四个学期以来的综合测评成绩数据,都是时间序列数据。面板数据也称为混合数据,是在不同的时间、不同的空间或个体上获得的数据。比如2000—2017年我国各地区的地区生产总值数据、1—5月有色金属行业50只股票的每日收盘价数据、四个学期以来班上50名学生的期末总评成绩数据,都是面板数据。
1.4.3 观测数据、实验数据
按照统计数据的收集方法,可以将其分为观测数据和实验数据。观测数据是通过调查或观测而收集到的数据,这类数据是在没有对事物进行人为控制的条件下得到的,有关社会经济现象的统计数据几乎都是观测数据。观测数据是无法重复获得的,即“历史不会重演”。实验数据则是在实验中控制实验对象而收集到的数据,实验数据可以重复获得。比如,对一种新药疗效的实验数据,对一种新的农作物品质的实验数据。自然科学领域的大多数数据都是实验数据。
区分数据类型很重要,因为对不同类型的数据,需要采用不同的统计方法来处理和分析。比如,对分类数据,我们通常计算各组的频数或频率、众数、异众比率等,进行列联表分析和χ2检验等;对顺序数据,可以计算中位数、等级相关系数等;对数值型数据,可以用更多的统计方法进行分析,如参数估计、假设检验等。统计数据的分类见图1-4。

图1-4 统计数据的分类