![统计挖掘与机器学习:大数据预测建模和分析技术(原书第3版)](https://wfqqreader-1252317822.image.myqcloud.com/cover/26/40868026/b_40868026.jpg)
6.5.1 示例1
我们看看第4章讨论的来自真实例子的两个变量HI_BALANCE(个人信用卡交易最高余额)和RECENCY_MOS(上次购买至今间隔的月数)。SRD数据挖掘流程包括以下两步:
1)将变量HI_BALANCE和RECENCY_MOS的值分别排序,并分别用于定义排序值变量rHI_BALANCE和rRECENCY_MOS。可以由大到小,也可以由小到大。
2)对这两个已经排序的变量进行对称处理。
这一步采用SAS程序RANK,如下。这个程序用来创建排序值变量rHI_BALANCE和rRECENCY_MOS。选项“normal=TUKEY”用于进行对称化处理。输入数据是DTReg,输出数据(如,对称的排序数据)是DTReg_NORMAL。SAS程序如下:
![](https://epubservercos.yuewen.com/F5D3BB/21233234408534806/epubprivate/OEBPS/Images/069-2-i.jpg?sign=1739616955-zFDS0Q3YJ4zAWsNxcRK6fMA45rZyR3Ca-0-f1fd77e02f208fdbc53bd38fc2de01d0)
示例1的讨论
1)图6.2和图6.3分别是HI_BALANCE和rHI_BALANCE的茎叶图和箱线图。HI_BALANCE和rHI_BALANCE的偏度值分别是1.0888和0.0098。
2)图6.4和图6.5分别是RECENCY_MOS和rRECENCY_MOS的茎叶图和箱线图。RECENCY_MOS和rRECENCY_MOS的偏度值分别是0.0621和-0.0001。
3)注意:茎叶图变成了直方图,这是因为样本量很大,有2000个。这个图形提供了分布形状的细节特征。
我承认自己有点犹豫,为了推进SRD方法,我只选择了对顺序数据进行处理,把重新编码的数值当成区间数据。
![](https://epubservercos.yuewen.com/F5D3BB/21233234408534806/epubprivate/OEBPS/Images/6a2.jpg?sign=1739616955-KnPqQZtBsi7GGzoTU20wcRA6ivWlFliw-0-8cf1eabc99c8e178093c07b40bbf1aca)
图6.2 HI_BALANCE的茎叶图和箱线图
![](https://epubservercos.yuewen.com/F5D3BB/21233234408534806/epubprivate/OEBPS/Images/6a3.jpg?sign=1739616955-Q6oNn4Vpqle9YdDqsCXmf8Gyij0KApp9-0-4ec5ff5d41dce6eeca5bd60d062d2c23)
图6.3 rHI_BALANCE的直方图和箱线图
![](https://epubservercos.yuewen.com/F5D3BB/21233234408534806/epubprivate/OEBPS/Images/6a4.jpg?sign=1739616955-vxK97wLJjyd0jmnqTi38qyWBFl3Pzivk-0-b139e3f07fd833efcfa7eb943525477b)
图6.4 RECENCY_MOS的直方图和箱线图
对数据进行对称化处理确实有助于校直数据。在无散点图的情况下,两对变量(HI_BALANCE和RECENCY_MOS以及用SRD法重新表述的变量rHI_BALANCE和rRECENCY_MOS)的相关系数分别为-0.6412和-0.100 63(见表6.1和表6.2)。所以说,SRD法改善了两个原始变量的预测关系,改善程度达到56.9%(=abs(-0.100 63)-abs(-0.064 12))/abs(-0.064 21)),其中abs=绝对值,即省去负号。总之,变量对(rHI_BALANCE,rRECENCY_MOS)比原来的那对变量具有更高的预测能力,为建模过程提供了更大空间。
![](https://epubservercos.yuewen.com/F5D3BB/21233234408534806/epubprivate/OEBPS/Images/6a5.jpg?sign=1739616955-cYt8Cs3iyvrz7deFkiFVw4Nn5aQ9n12a-0-ffe03a3fecb033ad7333da72f08b7e85)
图6.5 rRECENCY_MOS的直方图和箱线图
表6.1 HI_BALANCE和RECENCY_MOS的相关系数
![](https://epubservercos.yuewen.com/F5D3BB/21233234408534806/epubprivate/OEBPS/Images/6b1.jpg?sign=1739616955-mXsxOhvcg2M1tYnlXGMflwHjDk4ijhxy-0-e923bca9f2886656a489e4dd2a6770e2)
表6.2 rHI_BALANCE,rRECENCY_MOS的相关系数
![](https://epubservercos.yuewen.com/F5D3BB/21233234408534806/epubprivate/OEBPS/Images/6b2.jpg?sign=1739616955-K0qqMmseq8HeHuty6yqiMWJDNL6zhPc8-0-64ac81c5535714459172969d055bd3ad)