
3.3 类别变量的清理
变量的类型分为三类:类别变量(又称名义变量)、顺序变量、数值变量,前两类在SAS上又可以称为字符变量、数值变量。
3.3.1 EG菜单解决方案
本例讲解缺失值、无效值的处理。
Step1将BANKDATA数据库中的CREDITCARD_RAW拖入到过程流界面,如图3-32所示。

图3-32
Stpe2双击打开数据,在数据集上方的“描述”菜单下,单击“单因子频数”,打开“单因子频数”对话框,选择“数据”选项卡,将JOB1变量拖入“任务角色”下的“分析变量”,如图3-33所示。

图3-33
Step3在“统计量”选项卡下,选择“频数和百分比(含累积)”选项,在“缺失值”复选框下选择“显示频数”和“包含在计算中”,“包含在计算中”是指是否在计算累积频数百分比时计算缺失值。设置完上述选项后单击“运行”按钮,如图3-34所示。

图3-34
在该选项卡下其他选项的主要功能为:
● “二项式比例”主要用于总体某项构成比例的检验。
● “卡方拟合优度”:包括Pearson卡方、似然比卡方和Mantel-Haenszel卡方。对于2×2表,该检验包括Fisher精确检验和连续修正卡方。对于单向表,该检验包括等比的卡方拟合优度检验,计算大于2×2表的Fisher精确检验。该检验也称为Freeman-Halton检验。
Step4分析结果如图3-35所示,根据JOB1的各值含义,JOB1中缺失值的个数为6个,JOB1取值为9的为无效值。

图3-35
Step5可以采用表分析或者汇总表。本例以表分析为例,修改任务,将JOB1、good_bad拖入“任务角色”框的“表变量”下,如图3-36所示。

图3-36
“表统计量”选项卡各项功能说明如下。
● “关联”:该检验包括Pearson卡方、似然比卡方和Mantel-Haenszel卡方。对于2×2表,该检验包括Fisher精确检验和连续修正卡方。对于单向表,该检验包括等比的卡方拟合优度检验。计算大于2×2表的Fisher精确检验。该检验也称为Freeman-Halton检验。
● “Cochran-Mantel-Haenszel统计量”:计算所有Cochran-Mantel-Haenszel统计量。这些统计量包括CMH相关分析统计量、行均值得分(ANOVA)及修正相对风险和优比。默认得分类型为“表”。
● “关联测度”:计算多个关联测度及其渐近标准误差(ASE)。其中测度包括gamma、Kendall tau-b、Stuart tau-c、Somers D(C|R)、Somers D(R|C)、Pearson和Spearman相关分析系数、lambda(对称和非对称)及不定系数(对称和非对称)。对于2×2表,该测度还提供优比、列1相对风险、列2相对风险及相应的置信限。
● “一致性”:计算平方表的分类一致性检验和测度。该选项提供2×2表的McNemar检验和超过两个响应类别的表的对称Bowker检验。同时还生成简单kappa系数、加权的kappa系数、简单和加权的kappas的渐近标准误差及相应的置信限。当有多个层和两个响应类别时,该选项还计算Cochran Q检验。
● “有序差值”:计算Jonckheere-Terpstra检验,即各分类之间有序差值的非参数检验。将检验各分类之间响应变量的分布没有不同的原假设。
● “趋势检验”:计算趋势的Cochran-Armitage检验,即以跨单因子或协变量的水平以二项式比例检验趋势。该检验可用于一个变量具有两个水平而另一个变量为有序型的列联表。其中双水平变量表示响应,而其他变量表示带有序水平的说明变量。
● “计算选项”:值排序依据,你可以指定交叉表中变量值的顺序。值排序依据可设为下列选项:“数据集顺序”——按数据集中值的出现顺序对其排序;
“格式化值”——按格式化值升序顺序对值排序;
“频数降序”——按水平的频数统计值降序对值排序;
“未格式化值”——按未格式化值对值排序,此项为默认设置。
Step6将JOB1拖入行的位置,将good_bad拖入列的位置,单击“运行”按钮,如图3-37所示。
Step7表分析的结果如图3-38所示,分别是每个JOB1取值下,good_bad取值的频数及列百分比。可以看到JOB1取值为9的无效值时,good_bad变量的取值都为good。

图3-37

图3-38
3.3.2 SAS程序实现
类别变量的清理要用到FREQ过程步。FREQ过程主要有两个目的:一是描述分析,产生频数表和列联表,可以简单的描述数据;二是统计推断产生各种统计量,分析变量之间的关系。
基本语法

语法解读
● options,包括data=,代表要分析的数据集。
● by,指定分组变量,对by变量后的每个不同取值做单独分析。
● output,指定输出数据集。
● tables,用来定义频数表或交叉表,可以有多个tables语句。当频数表是命令为tables JOB1时,生成一维表;而命令为tables JOB1*good_bad,变量之间中间用*隔开,表示生成二维交叉表。tables后的选项为norownocolnopercent:若只需要频数,不需要各行各列的百分比,可在tables后面加上如下参数:


3.3.3 SPSS菜单解决方案
交叉表格分析可以使用SPSS中的交叉表来实现。
Step1在菜单栏中依次单击“分析→描述统计→交叉表”命令,打开“交叉表格”对话框,如图3-39所示。
可以从左侧的源变量框中,选择一个或多个源变量,单击向右的箭头,进入右边的对话框。可以选择数值变量或者分类变量进入,若选择数值变量则将数值变量的每一个取值作为一类。
● “显示集群条形图(display clustered bar charts)”复选框表示显示每一个行变量的取值中,列变量的取值分布条形图。
● “取消表格(suppress tables)”复选框,要求只输出统计量,不输出多维交叉表。交叉表可以类比Excel中的数据透视表,行列层分别对应行列页字段。

图3-39
Step2单击“精确(Exact)”按钮,打开“精确检验(Exact Tests)”对话框,如图3-40所示。
该对话框提供了3种用于不同条件的检验方式来检验行列变量的相关性:
● “仅渐近法(Asymptotic only)”:适用于具有渐近分布的大样本数据,SPSS默认选择该项。

图3-40
● “Monte Carlo(蒙特卡罗法)”:此项为精确显著性水平值的无偏估计,无需数据具有渐近分布的假设。在“置信度(Confidence Level)”参数框内输入数据,可以确定置信区间的大小,一般为90、95、99。在“样本数(Number of samples)”参数框中可以输入数据的样本容量。样本越大,计算得到的确切性水平越可靠,但计算过程耗时也越多。
● “精确(Exact)”:观察结果概率,同时在下面的“每个检验的时间限制为(Time limit per test)”的参数框内,选择进行精确检验的最大时间限度,避免时间耗费过长。
Step3单击“统计量(Statistics)”按钮,打开“交叉表格:统计(Crosstabs:Statistics)”对话框,如图3-41所示。

图3-41
在该对话框中,用户可以选择输出合适的统计检验统计量。对话框中各选项的意义如下:
● “卡方(Chi-square)”复选框:检验列联表行列变量的独立性检验,也被称为Pearson chi-square检验、χ2检验。
● “相关性(Correlations)”复选框:输出列联表行列变量的Pearson相关系数或Spearman相关系数。
● “名义(Nominal)”栏:适用于名称变量统计量。
“相依系数(Contingency coefficient)”:即Pearson相关系数或Spearman相关系数。
“Phi和Cramer V(系数)”:常用于名义变量之间的相关系数计算。ψ系数介于0和1之间,其中,K为行数和列数较小的实际数。
“Lambda(λ系数)”:在自变量预测中用于反映比例缩减误差,其值为1时表明自变量预测因变量好,为0时表明自变量预测因变量差。
“不确定性系数(Uncertainty coefficient)”:以熵为标准的比例缩减误差,其值接近1时表明后一变量的信息很大程度上来自前一变量,其值接近0时表明后一变量的信息与前一变量无关。
● “有序(Ordinal)”栏:适用于有序变量的统计量。
“伽玛(Gamma系数,γ系数)”:两个有序变量之间的关联性的对称检验。其数值界于0和1之间,所有观察实际数集中于左上角和右下角时,取值为1,表示两个变量之间有很强的相关性;取值为0时,表示两个变量之间相互独立。
“Somers'd”值:两个有序变量之间的关联性的检验,取值范围为[-1,1]。
“Kendall s tau-b”值:考虑有结的秩或等级分类变量关联性的非参数检验,相同的观察值选入计算过程中,取值范围为[-1,1]。
“Kendall s tau-c”值:忽略有结的秩或等级分类变量关联性的非参数检验,相同的观察值不选入计算过程,取值范围界为[-1,1]。
● “按区间标定(Nominal by interval)”栏:适用于一个名义变量与一个等距变量的相关性检验。
“Kappa”系数:检验数据内部的一致性,仅适用于具有相同分类值和相同分类数量的变量交叉表。
“Eta”值:其平方值可认为是因变量受不同因素影响所致方差的比例。
“风险”(相对危险度):检验事件发生和某因素之间的关联性。
“McNemar”检验:主要用于检验配对的资料率(相当于配对卡方检验)。
● “Cochran's and Mantel-Haenszel统计”复选框:适用于在一个二值因素变量和一个二值响应变量之间的独立性检验。
Step4单击“单元格(Cells)”按钮,打开“交叉表格:单元格显示(Crosstabs:Cell Display)”对话框,如图3-42所示。
在该对话框中,用户可以指定列联表单元格中的输出内容。对话框中各选项的具体意义如下:

图3-42
● “计数(Counts)”栏:
“观察值(Observed)”:系统默认选项,表示输出为实际观察值。
“期望值(Expected)”:表示输出为理论值。
● “百分比(Percentages)”栏:
“行(Row)”百分比:以行为单元,统计行变量的百分比。
“列(Column)”百分比:以列为单元,统计列变量的百分比。
“总计(Total)”百分比:行列变量的百分比都进行输出。
● “残差(Residuals)”栏:
“未标准化(Unstandardized)”:输出非标准化残差,为实际数与理论数的差值。
“标准化(Standardized)”:输出标准化残差,为实际数与理论数的差值除以理论数。
“调节的标准化(Adjusted standardized)”:输出修正标准化残差,为标准误确定的单元格残差。
● “非整数权重(Noninteger Weights)”栏:
“四舍五入单元格计数(Round cell counts,系统默认)”:将单元格计数的非整数部分的尾数四舍五入为整数。
“截断单元格计数(Truncate cell counts)”:将单元格计数的非整数部分的尾数舍去,直接化为整数。
“四舍五入个案权重(Round case Weights)”:将观测量权数的非整数部分的尾数四舍五入为整数。
“截断个案权重(Truncate case Weights)”:将观测量权数的非整数部分的尾数舍去,化为整数。
“无调节(No adjustments)”:不对计数数据进行调整。
本例中“计数”栏选择观察值和期望值,“百分比”栏选择行、列,“Z—检验”选择比例列的比例,“非整数权重”选择不调节。
单击“格式(Format)”按钮,用来设定显示顺序。
Step5单击“确定”按钮,运行结果如图3-43≈图3-45所示,依次输出3个案处理摘要、交叉表、卡方检验、方向度量值、对称度量值及条形图。不再一一显示,解读方式与EG类似。

图3-43

图3-44

图3-45