
第2章 数据探索与可视化
数据的探索性分析,在机器学习任务中非常重要。在数据分析流程中,数据科学家和数据工程师通常会消耗80%的精力,用于数据准备、数据预处理与探索,而剩下的精力才是应用具体的机器学习算法,尝试解决相应的问题。由此可见,数据的探索性分析非常重要。数据可视化技术是数据探索的利器,在进行分析数据时,使用合理的数据可视化技术往往能得到事半功倍的效果,尤其是在海量的数据面前。俗话说“一图胜千言”,人类非常善于从图像中获取信息,数据可视化图像借助人眼快速的视觉感知能力与人脑的智慧理解能力,可以起到清晰有效地传达、沟通并辅助数据分析的作用。
在数据探索过程中,面对一组已经读取的数据,首要的问题就是检查数据是否完整,数据中是否含有缺失值。如果数据是不完整的,就需要针对不同的缺失情况,使用合适的缺失值处理方法来填补缺失值。在得到完整的数据后,又需要对数据进行描述统计等操作,进一步全面认识数据的形式和内容。针对数据表上密密麻麻的数值,借助数据可视化技术观察数据,通常能够更方便、更直接地得到更多有用信息,从而能够更加直观、全面地理解和把握数据。在探索数据的时候,也会使用到一些数据的相似性度量方法,用于分析数据样本或者变量之间的关系。
综上所述,本章将会包含数据缺失值处理、数据描述统计、数据异常值发现、数据可视化,以及经常用于分析数据样本距离的相关方法。下面对可视化图像的显示情况进行设置,并导入数据探索性分析与数据可视化中会使用到的相关库和模块。


针对导入的相关库,这里对它们的功能进行简单介绍。使用到的数据可视化库或模块有pyplot、seaborn、Altair、mosaicplot、Plotly、missingno、SciPy、NetworkX、sklearn、missingpy、pandas.plotting、WordCloud、NetworkX.drawing等。在导入的库中,missingno库常用于数据异常值的可视化与处理,SciPy库是数据科学计算库,WordCloud库常用于可视化词云,NetworkX库用于图的分析与可视化,sklearn则是机器学习常用库,其提供了常用的机器学习算法,missingpy库则提供了处理缺失值的相关算法。
本章将使用导入的这些库和模块完成以下内容:缺失值处理、数据描述与异常值发现、可视化分析数据关系、数据样本间的距离。