Python数据挖掘实战(微课版)
上QQ阅读APP看书,第一时间看更新

前言

随着大数据、物联网、云计算、人工智能等技术的日新月异,人们从商业、科学研究等领域获得的数据量极速增长,但是这也带来了数据的价值密度越来越低的问题。人们经常面临着“数据丰富、知识贫乏”的尴尬境地。为了让数据充分发挥为人类社会服务的价值,我们迫切需要一类从“数据汪洋”中发现并提取有价值的信息或知识的技术,这促使数据挖掘技术的诞生和快速发展。数据挖掘融合了统计学、机器学习、数据库、信号处理等多个学科的知识,是目前数据科学领域非常热门且具挑战性的技术。

数据挖掘是对理论知识和实践操作要求都非常高的技术。对广大数据挖掘领域的工作人员和研究人员来说,需要面对的数据类型多种多样、千差万别。因此,他们应该掌握扎实的数据探索和可视化技术,以便了解数据的特点和分布规律;应该擅长对各种数据进行预处理,以提高数据的质量和可用性;应该熟悉大量的数据挖掘模型的原理、特点和适用范围,以便针对数据的特点选择或设计比较恰当的模型来提取蕴藏在数据中的知识,熟练地掌握模型的实现技术并最终完成数据挖掘任务。

党的二十大报告指出,教育领域要“加强基础学科、新兴学科、交叉学科建设”。数据挖掘近十年的发展已经展现出了非常强的交叉学科的特色,并在很多领域得到广泛应用。例如,在经济学、管理学、社会学领域都有大量的学者通过数据挖掘的理论和技术解决其在研究领域的相关问题。为了满足相关从业人员或研究人员系统性学习数据挖掘技术的需要,本书以Python语言为基本实现工具,以贴近实战的角度讲述数据挖掘的主要模型的原理和方法、模型的实现技术及其在多个典型案例中的应用。本书具有如下4个明显特点。

(1)理论与实战有机结合。在介绍数据挖掘技术时,本书做到了理论原理和模型实战并重。一方面,我们避免过度陷入对数据挖掘模型的数学理论推导,把重心放在简明扼要地讲解模型的基本原理和算法步骤上,帮助读者对模型特点建立清晰的认识;另一方面,我们结合具体案例展示模型的实现技术和主要结果,帮助读者对模型的性能有直观的认识。两方面的讲述互为一体,相辅相成。

(2)以Python作为模型实现工具。Python是数据科学领域的主流计算机语言,具有简单易学、易于理解、数学计算功能强大、开源等特点,通过Scikit-learn、Pandas、NumPy等可扩展模块的支持,可以比较轻松地给出数据挖掘模型的实现,并完成可视化、模型评价等工作。本书在介绍数据挖掘模型的实现时,采用了多个可扩展模块,并详细地给出了它们的安装、配置和使用方法,便于读者快速掌握。

(3)重视数据探索和数据预处理方面的知识讲解。在实际的数据挖掘工作中,探索数据和对数据进行预处理是不可或缺的工作,通常占据了全部工作量的大半部分,然而,目前许多教材都忽略了这些方面的描述。本书用3章较为完整、系统地介绍了数据探索、数据预处理和特征选择方面的常用技术,并通过多个案例帮助读者深刻理解它们的作用。

(4)图、表、代码等内容丰富。为了更简洁、直观地帮助读者理解数据挖掘模型的原理、实现过程和结果,本书通过大量的图、表、代码等方式描述数据挖掘模型的相关结构、处理流程、函数、实现代码、可视化结果等内容。

本书共12章,主要分为三大部分,主要内容如下。

第一部分(包括第1章、第2章)介绍数据挖掘的基础知识,主要包括数据挖掘的主要概念、一般流程、工具和环境、常用的数据挖掘模块等内容。

第二部分(包括第3~5章)介绍与提高数据质量有关的前期工作,主要包括统计描述、可视化方法等数据探索方法(第3章),数据集成、数据清洗、数据变换、数据规约等预处理方法(第4章),以及三类特征选择方法(第5章)。

第三部分(包括第6~12章)介绍七大类数据挖掘模型,包括基础分类模型及回归模型(第6章)、集成技术(第7章)、聚类分析(第8章)、关联规则分析(第9章)、时间序列挖掘(第10章)、异常检测(第11章)和智能推荐(第12章)。

本书由王磊、邱江涛、陈智、高强、丁丹编写。另外,晏子锐、张志远、赵文超、苏中惠和刘铭洋参与了本书的审校工作。限于编者水平,书中不妥之处在所难免,恳请广大读者批评和指正。

编者
2023年7月