![统计挖掘与机器学习:大数据预测建模和分析技术(原书第3版)](https://wfqqreader-1252317822.image.myqcloud.com/cover/26/40868026/b_40868026.jpg)
上QQ阅读APP看书,第一时间看更新
7.8 用PCA构造准交互变量
我给出一个原创的有价值的PCA用法,用于构造准交互变量(quasi-interaction variable)。我用SAS来实现这个工作,在介绍完构建过程之后提供了这个程序(见7.8.1节)。我们看表7.6中的数据集合IN。其中有两个类别变量:GENDER(假定M代表男性,F代表女性,空白代表没有数据),MARITAL(假定M代表已婚,S代表单身,D代表离婚,空白代表没有数据)。
表7.6 数据集合IN
![](https://epubservercos.yuewen.com/F5D3BB/21233234408534806/epubprivate/OEBPS/Images/7b6.jpg?sign=1739444668-bnLcqLtFHKolYaEERzLsqjtd64NsqLad-0-650b9c42ab7a2a29720b1f2b16daad39)
我重新设定变量,并在空白处填上x。所以,GENDER_和MARITAL_分别是GENDER(性别)和MARITAL(婚姻状况)的修改后的变量(见表7.7)。
表7.7 重设变量之后的数据集合IN
![](https://epubservercos.yuewen.com/F5D3BB/21233234408534806/epubprivate/OEBPS/Images/7b7.jpg?sign=1739444668-EovlS2BYUglZHQWpEk8CoPB1Un7c8bry-0-a2bcd530295d26f7f378a8f9dbcf8f5b)
然后,我用SAS程序TRANSREG为GENDER_和MARITAL_创建哑变量,对这两个变量的每个值,都有对应的哑变量。比如,GENDER_=M,哑变量是GENDER_M。参考哑变量用于处理x缺失的值(见表7.8)。
我用GENDER_和MARITAL_哑变量进行PCA,可以得到5个准交互变量:GENDER_x_MARITAL_pc1到GENDER_x_MARITAL_pc5,结果见表7.9,结果留给读者解读。抛开细节不谈,显然PCA是一个强大的数据挖掘方法。
表7.8 使用SAS程序TRANSREG处理GENDER_和MARITAL_哑变量的结果
![](https://epubservercos.yuewen.com/F5D3BB/21233234408534806/epubprivate/OEBPS/Images/7b8.jpg?sign=1739444668-m84A8aJHpruJQwEafcxjyXFmPZxMLHQP-0-e617ed82819c922611fc9ee661101bf1)
表7.9 用GENDER_和MARITAL_哑变量产生准交互变量
![](https://epubservercos.yuewen.com/F5D3BB/21233234408534806/epubprivate/OEBPS/Images/7b9.jpg?sign=1739444668-gxLC7nrWtY8IDjoshkx3gvjNddfpS9tH-0-552b2fbf28cf8fe17f904bf6533c7fce)
![](https://epubservercos.yuewen.com/F5D3BB/21233234408534806/epubprivate/OEBPS/Images/085-i.jpg?sign=1739444668-5NdcQ3LO725vnhHoreTBoFrgCIpSMQ8g-0-94708001baf155ab8facda2310f3d289)
准交互变量PCA法的SAS程序代码
![](https://epubservercos.yuewen.com/F5D3BB/21233234408534806/epubprivate/OEBPS/Images/085-2-i.jpg?sign=1739444668-gcaEhpZtDk6PeEGk5FAA0cmKYvg8I3fw-0-779ae6f5875e0e3a460e8fc5fc7ea9c3)
![](https://epubservercos.yuewen.com/F5D3BB/21233234408534806/epubprivate/OEBPS/Images/086-i.jpg?sign=1739444668-AIgqzSuQDIP1kvJHTzvt7WeflIf1qO0s-0-300f8cd76904a254acd938d060d2b4d1)