Python机器学习算法与实战
上QQ阅读APP看本书,新人免费读10天
设备和账号都新为新人

第3章 特征工程

特征工程是机器学习数据准备过程中的核心任务,主要通过变换数据集的特征空间,从而提高数据集的预测建模性能。特征工程通常由数据科学家根据自己的领域专业知识,反复实验结果以及评估模型效果来进行。针对数据集的不同情况,有多种数据特征工程的方式可以选择,如对数据进行特征变换、特征构建、特征选择、特征提取等,其中数据平衡方式也可以认为是一种针对不同类数据样本量平衡的特征工程方法。本章将会介绍的特征工程相关内容如图3-1所示。

图3-1 特征工程的相关内容

本章将会针对图3-1所展示的内容,介绍如何使用Python完成特征工程的相关任务。首先导入相关库和模块,程序如下: