机器学习编程:从编码到深度学习
上QQ阅读APP看书,第一时间看更新

第5章 能辨识的机器

我们以线性回归为起点,开始了学习机器学习知识的旅程。现在我们将使用已经掌握的机器学习知识(及代码)来实现我们的目标:构建一个图像识别程序。

本章主要介绍图像识别的第一步,即分类器的构造,实现一个能将样本数据分配给某个有限类别的程序。与数值标签不同,分类器使用分类标签。例如,可以思考一下我们的比萨销量预测器与植物识别系统之间的差异。比萨销量预测器输出的是一个数值;相比之下,植物分类器输出的是从预定义的可能物种列表中得到的某个植物名称。

本章中将从小型分类模型入手,主要考察只能分辨两个类别的二元分类器。现实生活中很多有用的识别系统都是基于二元分类器实现的。例如,我们在第一章中描述的肺炎检测器将X光片分为两类:“肺炎”光片或“非肺炎”光片。

下面我们将使用分类模型替换程序中的线性回归模型,并且从与计算机视觉毫无关系的分类问题入手,下一章将把这个二元分类器应用到图像领域。

在开始之前,我们需要注意一下措辞方面的细微变化。到目前为止,我们所介绍的学习系统都包含两个阶段,即训练阶段和预测阶段。从现在开始,我们将把这两个阶段分别称为训练阶段和分类阶段,以强调我们的预测结果是一个分类标签。“分类”只是一种特定类型的预测,所以我们使用更加特定的术语。