机器学习基础:从入门到求职
上QQ阅读APP看本书,新人免费读10天
设备和账号都新为新人

1.2 机器学习分类

机器学习的分类方式有很多种,最常见的方式是按任务类型分类和按学习方式分类。

1.2.1 按任务类型分类

按任务类型分类,机器学习可分为回归问题、分类问题、聚类问题和降维问题等,如图1-6所示。

图1-6 机器学习分类(按任务类型)

1.回归问题

回归问题其实就是利用数理统计中的回归分析技术,来确定两种或两种以上变量之间依赖关系。如图1-7所示,实线表示的是某只股票随时间变量的实际波动情况,而虚线是基于线性回归模型进行回归预测得到的结果。

图1-7 回归问题举例

2.分类问题

分类问题是机器学习中最常见的一类任务,比如我们常说的图像分类、文本分类等,如图1-8所示。

图1-8 分类问题举例

3.聚类问题

聚类问题又称群分析,目标是将样本划分为紧密关系的子集或簇。简单来讲就是希望利用模型将样本数据集聚合成几大类,算是分类问题中的一种特殊情况。聚类问题的常见应用(市场细分、社群分析等)如图1-9所示。

图1-9 聚类问题举例

4.降维问题

降维是指采用某种映射方法,将原高维空间中的数据点映射到低维空间。为什么使用降维呢?可能是原始高维空间中包含冗余信息或噪声,需要通过降维将其消除;也可能是某些数据集的特征维度过大,训练过程比较困难,需要通过降维来减少特征的量。

常用的降维模型有主成分分析(PCA)和线性判别分析(LDA)等,在后续章节会详细介绍这两个降维模型。基于PCA和基于核化的PCA进行降维后的样本数据效果图如图1-10所示,可以看到,通过降维,我们让原本非线性可分的数据集转化成线性可分的了。

图1-10 PCA模型降维实例

1.2.2 按学习方式分类

按学习方式来分类,机器学习可分为有监督学习、无监督学习和强化学习等,如图1-11所示。

图1-11 机器学习分类(按学习方式)

1.有监督学习

有监督学习(Suprevised Learning),简称监督学习,是指基于一组带有结果标注的样本训练模型,然后用该模型对新的未知结果的样本做出预测。通俗点讲就是利用训练数据学习得到一个将输入映射到输出的关系映射函数,然后将该关系映射函数使用在新实例上,得到新实例的预测结果。例如,某商品以往的销售数据可以用来训练商品的销量模型,该模型可以用来预测该商品未来的销量走势。常见的监督学习任务是分类(Classify)和回归(Regression)。

● 分类:当模型被用于预测样本所属类别时,就是一个分类问题,例如,要区别某张给定图片中的对象是猫还是狗。

● 回归:当所要预测的样本结果为连续数值时,就是一个回归问题,例如,要预测某股票未来一周的市场价格。

2.无监督学习

在无监督学习(Unsuprevised Learning)中,训练样本的结果信息是没有被标注的,即训练集的结果标签是未知的。我们的目标是通过对这些无标记训练样本的学习来揭示数据的内在规律,发现隐藏在数据之下的内在模式,为进一步的数据处理提供基础,此类学习任务中比较常用的就是聚类(Clustering)和降维(Dimension Reduction)。

● 聚类:聚类模型试图将整个数据集划分为若干个不相交的子集,每个子集被称为一个簇(Cluster)。通过这样的划分,每个簇可能对应于一些潜在的概念,如一个簇表示一个潜在的类别。聚类问题既可以作为一个单独的过程,用于寻找数据内在的分布结构,又可以作为分类等其他学习任务的前驱过程,用于数据的预处理。假设样本集通过使用某种聚类方法后被划分为几个不同的簇,则一般我们希望不同簇内的样本之间能尽可能不同,而同一簇内的样本能尽可能相似。

● 降维:在实际应用中,我们经常会遇到样本数据的特征维度很高但数据很稀疏,并且一些特征可能还是多余的,对任务目标并没有贡献的情况,这时机器学习任务会面临一个比较严重的障碍,我们称之为维数灾难(Curse of Dimensionality);维数灾难不仅会导致计算困难,还会对机器学习任务的精度造成不良影响。缓解维数灾难的一个重要途径就是降维,即通过某些数学变换关系,将原始的高维空间映射到另一个低维的子空间,在这个子空间中,样本的密度会大幅提高。一般来说,原始空间的高维样本点映射到这个低维子空间后会更容易进行学习。

3.强化学习

强化学习(Reinforcement Learning)又称再励学习、评价学习,是从动物学习、参数扰动自适应控制等理论发展而来的。它把学习过程看作一个试探评价过程,强化学习模式如图1-12所示。

图1-12 强化学习模式示意图

机器先选择一个初始动作作用于环境,环境接收到该动作后状态发生变化,同时产生一个强化信号(奖赏或惩罚)反馈给机器,机器再根据强化信号和环境当前状态选择下一个动作,选择的原则是使受到正强化(奖赏)的概率增大。通俗地讲就是:让机器自己不断去尝试和探测,采取一种趋利避害的策略,通过不断地试错和调整,最终机器将发现哪种行为能够产生最大的回报,从而学习出其自己的一套较为理想的处理问题的模式,当以后再面临一些问题时,它就可以很自然地采用一种最佳模式去处理和应对。

强化学习是一种重要的机器学习方法,在智能控制机器人及分析预测等领域有许多应用,比如在围棋界打败世界冠军的AlphaGo就运用了强化学习。

1.2.3 生成模型与判别模型

这里补充一个比较重要的概念,即生成模型与判别模型。在有监督学习中,学习方法可进一步划分为生成方法和判别方法,所学到的模型对应称为生成模型和判别模型。

1.生成模型

生成方法是由数据学习训练集的联合概率分布P(X,Y),然后求出条件概率分布P(Y|X)作为预测的模型,即做成模型再运用这个模型对测试集数据进行预测,即

这样的方法之所以被称为生成方法,是因为模型表示了给定输入X产生输出Y的生成关系。典型的生成模型有:朴素贝叶斯模型和隐马尔科夫模型。

2.判别模型

判别方法是由数据直接学习决策函数f(X)或条件概率分布P(X,Y)作为预测模型,即判别模型。

判别方法关心的是对给定的输入X,应该预测出什么样的输出Y。典型的判别模型包括K近邻、感知机、决策树、Logistic回归、最大熵模型、支持向量机、提升方法、条件随机场等。

3.生成方法的特点

● 生成方法可以还原出联合概率分布P(X,Y),而判别方法不能。

● 生成方法的学习收敛速度一般更快。

● 当存在隐变量时,生成方法仍可以使用,而判别方法不能。

4.判别方法的特点

判别方法直接学习条件概率或决策函数,即直接面对预测,往往学习的准确度更高。

由于可以直接学习P(Y|X)或f(X),可以对数据进行各种程度的抽象,能定义特征并使用特征,因此可以简化学习问题。