1.3 数据挖掘环境的配置
1.3.1 常用的数据挖掘工具
数据挖掘是一个包含多个步骤的复杂数据处理流程,在实施过程中必须依赖特定的数据挖掘工具或软件,才能取得较好的效果。目前,常用的数据挖掘工具包括以下3类。
1.商业化的数据挖掘软件
例如,SAS的Enterprise Miner、IBM的SPSS Modeler、Oracle的Data Miner等。这些软件工具都已经非常成熟,不仅提供了易用的可视化界面,还集成了数据获取、处理、建模、评估等一整套功能。这些数据挖掘工具通常价格不菲,适合企业级的数据挖掘任务。
2.开源的数据挖掘工具
例如,Weka、RapidMiner和KNIME。这些开源数据挖掘工具也都提供了图形界面的支持,可以方便地实施数据的预处理、可视化、建模、评价等数据挖掘操作,且采用Java语言实现了一些常用的数据挖掘模型,可以快速地完成一些简单的数据挖掘任务。图1-4、图1-5分别给出了Weka和RapidMiner的工作界面。与其他工具相比,开源的数据挖掘工具对模型的支持相对较少,不够灵活,缺少对Python、R等脚本语言的支持。
图1-4 Weka的工作界面
图1-5 RapidMiner的工作界面
3.基于脚本语言的数据挖掘工具
Python和R是目前两种非常流行的针对数据分析任务的脚本语言,具有简单易学、易于理解、数学计算功能强大、可扩展性强等特点。使用开源的可扩展模块,开发人员可以轻松编写和实现数据挖掘的脚本程序,并可根据任务需求灵活地完成数据预处理、模型构建、可视化和评价等操作。例如,在Python语言中,NumPy、Pandas、Scikit-learn和Matplotlib等模块提供了对大部分数据挖掘任务的支持。与前面两类工具不同,使用Python和R脚本语言进行数据挖掘时,需要集成开发工具的支持。其中,Python语言常用的开发工具包括PyCharm、Spyder、Jupyter Notebook等,R语言常用的开发工具包括RStudio、RKward等。图1-6、图1-7给出了Spyder和RStudio的工作界面。
图1-6 Spyder的工作界面
图1-7 RStudio的工作界面
在本书中,我们选用Python作为数据挖掘语言,并采用Anaconda 3自带的Spyder和Jupyter Notebook作为其开发平台。