Python数据挖掘实战(微课版)
上QQ阅读APP看书,第一时间看更新

2.1 NumPy

Python是动态类型的解释型语言,在代码解释执行的过程中会引入类型检查、编译执行等额外操作,使得原生的Python代码在执行效率上往往显著慢于其他高级语言程序。为了在保留Python简约编程风格的同时满足基本的性能需求,像NumPy这样由C/C++语言编写的、可通过Python无缝调用的高性能计算模块应运而生。

NumPy是Numerical Python的缩写,是高性能计算和数据分析的基础包,也是本章接下来要讲解的Pandas、Matplotlib、Scikit-learn等模块的构建基础。NumPy除了提供一些高级的数学运算机制以外,还具备非常高效的向量运算和矩阵运算功能。这些功能对于数据挖掘任务尤为重要。因为不论是数据的特征表示,还是参数的批量运算,均离不开更加方便、快捷的向量运算和矩阵运算。需要特别强调的是,NumPy的内置函数处理数据的速度均为C/C++语言级别,因而在编写程序时,应尽量使用NumPy的内置函数,以避免效率瓶颈问题,尤其在涉及循环操作时。

NumPy主要提供以下几个主要功能。

•Ndarray数据对象:NumPy的多维数组对象,用于存储和处理数据。

•提供可用于对数组数据进行快速运算的数学函数。

•提供可用于读写磁盘数据的工具。

•提供常用的线性代数、傅里叶变换和随机数操作。

•提供可调用C/C++和FORTRAN代码的工具。

•提供能够无缝、快速地与各种数据库集成的工具。

在Windows等操作系统中,可在Anaconda命令行终端(Prompt)中通过pip命令或者conda install方便地安装NumPy模块。


pip install numpy        #使用pip命令安装
conda install numpy             #使用conda命令安装

也可以指定要安装的NumPy模块的版本,如图2-1所示。


pip install numpy == 1.19

图2-1 在Anaconda的命令行终端安装指定版本的NumPy

安装好NumPy模块以后,需要对其进行引用才可使用。通常情况下,使用np作为NumPy的别称,例如:


import numpy as np