1.3 数据挖掘环境的配置_Python数据挖掘实战（微课版）-QQ阅读女生青春网

上QQ阅读APP看书，第一时间看更新

1.3 数据挖掘环境的配置

1.3.1 常用的数据挖掘工具

数据挖掘是一个包含多个步骤的复杂数据处理流程，在实施过程中必须依赖特定的数据挖掘工具或软件，才能取得较好的效果。目前，常用的数据挖掘工具包括以下3类。

1.商业化的数据挖掘软件

例如，SAS的Enterprise Miner、IBM的SPSS Modeler、Oracle的Data Miner等。这些软件工具都已经非常成熟，不仅提供了易用的可视化界面，还集成了数据获取、处理、建模、评估等一整套功能。这些数据挖掘工具通常价格不菲，适合企业级的数据挖掘任务。

2.开源的数据挖掘工具

例如，Weka、RapidMiner和KNIME。这些开源数据挖掘工具也都提供了图形界面的支持，可以方便地实施数据的预处理、可视化、建模、评价等数据挖掘操作，且采用Java语言实现了一些常用的数据挖掘模型，可以快速地完成一些简单的数据挖掘任务。图1-4、图1-5分别给出了Weka和RapidMiner的工作界面。与其他工具相比，开源的数据挖掘工具对模型的支持相对较少，不够灵活，缺少对Python、R等脚本语言的支持。

图1-4 Weka的工作界面

图1-5 RapidMiner的工作界面

3.基于脚本语言的数据挖掘工具

Python和R是目前两种非常流行的针对数据分析任务的脚本语言，具有简单易学、易于理解、数学计算功能强大、可扩展性强等特点。使用开源的可扩展模块，开发人员可以轻松编写和实现数据挖掘的脚本程序，并可根据任务需求灵活地完成数据预处理、模型构建、可视化和评价等操作。例如，在Python语言中，NumPy、Pandas、Scikit-learn和Matplotlib等模块提供了对大部分数据挖掘任务的支持。与前面两类工具不同，使用Python和R脚本语言进行数据挖掘时，需要集成开发工具的支持。其中，Python语言常用的开发工具包括PyCharm、Spyder、Jupyter Notebook等，R语言常用的开发工具包括RStudio、RKward等。图1-6、图1-7给出了Spyder和RStudio的工作界面。

图1-6 Spyder的工作界面

图1-7 RStudio的工作界面

在本书中，我们选用Python作为数据挖掘语言，并采用Anaconda 3自带的Spyder和Jupyter Notebook作为其开发平台。