人工智能
上QQ阅读APP看书,第一时间看更新

2.1 人脸识别概述

2.1.1 什么是人脸识别

人脸识别(Face Recognition),简单来说就是通过人的面部照片实现身份认证的技术。这里的照片既可以来源于相机拍照,也可以来源于视频截图;既可以是配合状态下的正面照(如护照像),也可以是非配合状态下的侧面照或远景照(如监控录像)。

人脸识别可细分为两种认证方式,一种是身份确认(Verification),一种是身份辨认(Identification)。在身份确认中,计算机需要对两张人脸照片进行对比,以判断是否为同一个人。这一认证方式通常用于信息安全领域,如海关身份认证、ATM刷脸取款等,如图2-1所示。在身份辨认中,给定目标人的一张面部照片,计算机需要在一个庞大的照片数据库中进行搜索,找到和给定照片最相近的照片,从而判断出目标人的身份,如图2-2所示。这一认证方式一般用于公共安全领域,如刑侦领域的嫌疑人排查。

图2-1 人脸识别用于身份确认

注:验证人给出身份证信息,机器抓拍一张实时照片,将该照片和身份证上的照片进行对比。如果匹配程度超过一定阈值,即可判断为同一人,验证通过。

图2-2 人脸识别用于身份辨认

注:给定目标人的一张照片,在数据库中进行搜索,找到相似度最大的一张照片,即可判断目标人的身份。

在实际应用中,可能需要同时用到确认和辨认两种认证方式。例如,在一个公司门禁系统中,对一张待认证的人脸照片,首先需要搜索公司所有员工的照片库,以找到匹配度最大的照片作为身份候选,之后还需要判断这两张照片的匹配度是否超过了预设的阈值,只有超过该阈值,门禁系统才能打开。因此,这一系统同时包含了辨认和确认两种认证方式。

2.1.2 人脸识别系统的基本组成

让我们先来回忆一下,人在识别一个访客身份时采取的基本步骤。首先,通过眼睛把该访客的整体形象印入脑海(图像采集);之后,会从这一整体形象中找到脸的位置(人脸定位);如果位置不正,还会努力调整角度,直到看到正面清晰的人脸(正规化);接下来,会去定位这张脸上的主要特征,比如整体轮廓、双眼间距、鼻子形状等(特征提取);最后,会依据这些特征在脑海中进行对比和搜索,最终从记忆中找到一张匹配度最高的人脸,从而确定访客的身份(模式匹配)。

计算机识别人的身份也需要这样几个步骤:图像采集、数据预处理(包括人脸定位和正规化等)、特征提取、模式匹配。这四个步骤分别由四个独立模块完成,如图2-3所示,具体细节如下。

图2-3 人脸识别系统架构图

注:光学设备采集到人脸图像,预处理模型对该图像进行一系列预处理工作,将处理后的图像送入特征提取模块提取典型人脸特征,最后由模式匹配模块与系统中的预存人脸进行对比,得到匹配分数。

  • 图像采集(Image Capturing):通过光学设备采集包含人面部区域的图像。该设备可能是照相机、高清摄像机、监控摄像头等。
  • 数据预处理(Data Processing):对采集到的图像做先期处理,主要包括人脸定位和正规化。人脸定位是从图片中找到面部区域(1)。正规化是对定位到的人脸图像进行调整,减少光照、位置、姿态等干扰因素的影响。
  • 特征提取(Feature Extraction):从面部图像中提取出对人脸具有较强表达能力和较强区分能力的典型特征。这些特征可能有很多,我们将这些特征用一个向量表示,称为特征向量(Feature Vector)。(2)这些特征可能是面部各部件(如眼、口、鼻等)的局部特征,也可能是轮廓、灰度等整体特征。
  • 模式匹配(Pattern Match):基于特征向量对不同图片进行对比,称为模式匹配。匹配过程会给出一个匹配分数,代表两幅图的相似程度。该匹配分数可以用来完成身份的确认或辨认任务。

2.1.3 人脸识别简史

人脸识别的主要困难在于各种干扰因素的影响,这些干扰因素既包括光学设备本身的差异、不同的光照条件、不同的拍摄角度、装饰与遮挡等外在因素,也包括情绪变动、年龄变化等内在因素。这些干扰因素带来很大的不确定性,使得同一个人的不同照片差异明显。在某些情况下,干扰因素带来的变动甚至可能超过不同人之间的差异。这意味着对比两张照片时,最显著的变化可能不是来自于人与人之间的差异(称为类间差异,Between-Class Variation),而是同一人在不同环境和不同状态下的自身差异(称为类内差异,Within-Class Variation)。类内差异大于类间差异意味着即使两张照片具有明显的差别,也很难判断这两张照片是否为同一个人。人脸识别几十年的研究历史正是围绕解决这一核心困难展开的。

1. 心理学和神经学研究

人脸识别的早期工作是研究人类如何识别人脸,主要由心理学家和神经科学家完成。布鲁纳(J. S. Bruner)在1954年研究了人类个体对其他人(包括人脸)的心理感知过程(3);塞缪尔在1992年也讨论了人类认识人脸的神经机理(4)。哈克斯比(Haxby JV)在2002年研究了人在识别人脸及表情时的神经活动(5),威尔默(Wilmer JB)在2010年发现人的“认脸”能力是由基因决定的(6)。总体来说,科学家现在已经知道,大脑的“梭状回”(fusiform gyrus)是负责人脸识别的主要神经区域(7)(8),而且对越漂亮的人脸,梭状回的激发度越高(9)。具体来说,人眼在接收到人脸信号时,先由视觉神经做一系列预处理工作,再由梭状回进行辨析,找出区分性特征,然后基于这些特征区分不同的人脸。如果人的梭状回先天不发达或后天受损,则可能出现“脸盲症”,不仅不认识熟人,连自己都可能不认识了(10)(11)

2. 模式识别阶段(1956—1993年)

早期人脸识别研究开始于20世纪60年代末。当时的研究可分为两个主要方向:基于几何特征的识别和基于模板匹配的识别。基于几何特征的识别是寻找脸部各个部件的间距、比例等几何特征,如眼睛和眉毛之间的距离,嘴角和鼻子之间的角度等(12)。基于模板匹配的识别是将人脸看作一张灰度图提取整体特征。Brunelli在1993年发表了一篇文章,对这两种方法进行了对比,发现模板匹配方法性能更好(13)。自此以后,基于几何特征的方法渐渐被淘汰,模板匹配法成为主流。

3. 统计模型阶段(1993—2000年)

20世纪90年代后,人脸识别进入统计模型时代,最著名的统计模型方法是特征脸方法,由Turk等人于1991年提出(14)。这一方法的主要思路是将一张人脸图片表示成若干有代表性的特征脸图片的加权和,取每张特征脸图片上的权重系数作为人脸特征。这一特征提取方法简洁高效,直到今天依然是公认的基线方法。特征脸方法启发了后续众多新算法的设计,如Fisher脸方法(15),可以提取比特征脸权重系数更有区分性的特征。2.2节我们将对特征脸方法做详细介绍。

弹性图匹配(EGM)是统计模型时代的另一种代表性方法(16)(17)。该方法用一个属性图来描述人脸,该图的顶点对应面部的关键点,顶点的属性值为该特征点处的局部特征,顶点间的边表示特征点之间的几何关系(图2-4)。将人脸表示为属性图后,人脸识别即转化为属性图间的匹配问题。在匹配过程中,两幅图之间的关键点是一一对应的,因此可部分解决姿态、拍摄方向等干扰因素的影响。

图2-4 弹性图匹配(EGM)方法将人脸表示成一幅弹性图

注:图中每个点代表面部的一个关键点(如眼睛、鼻子等),各个点互相连接形成一幅弹性图。基于弹性图,即使是不同姿势的人脸也可以实现合理的匹配(18)

统计模型时代的另一个代表成果是3D变形模型的应用,由Blanz和Vetter等在1999年提出(19)(20)。该方法通过3D扫描生成人脸3D模型(包括轮廓坐标和纹理),基于图形学方法可以由该3D模型生成人脸的平面2D照片。反过来,对一张2D照片,可以通过调整3D模型的参数(如位置、光照等),使得该模型生成的照片与该2D照片误差最小。这事实上实现了由2D照片到3D人脸的映射(图2-5)。基于这一映射,可以将照片中人脸特征和拍摄位置、光照等干扰因素有效分离,从而极大提高人脸识别的准确度。

这一时期,美国军方组织了著名的FERET人脸识别测试,分别在1994年、1995年、1996年组织了3次评测,极大地促进了人脸识别算法的改进,并引导研究者关注真实场景下的人脸识别任务。

图2-5 人脸3D变形模型

注:3D数据库通过激光扫描真实人脸生成。这一数据库可以用来生成一个人脸变形模型。对一张2D输入照片,基于该人脸形变模型将该照片映射为3D人脸,再对外形和纹理进行调整,得到匹配度较好的3D人脸输出(21)

4. 机器学习阶段(2000—2014年)

21世纪的前十年,研究者开始关注真实场景下的人脸识别问题,基于大数据的机器学习模型开始受到重视,基于视频的人脸识别开始发展(22)(23)

这一时期,基于局部描述的Gabor特征(24)和LBP特征(25)(26)成为主流特征。2009年以后,稀疏编码(Sparse Coding)成为研究热点,其抗噪性较Gabor和LBP等特征有显著提高(27)(28)。这一时期,以核方法为代表的非线性模式匹配方法开始流行,特别是支持向量基(SVM)开始得到广泛应用,极大地提高了模式匹配的精度(29)

2007年,免费开放的LFW人脸识别数据库开始流行(30)。该数据库包括来自因特网的5749人的13 233张人脸图像,其中的1680人有两张或两张以上的图像。和以前的测试集不同,LFW的照片从互联网得到,在拍摄设备、条件、姿势等方面没有任何限制。自LFW发布以来,该数据集已成为验证人脸识别性能的标准测试集。

5. 深度学习阶段(2014—2018年)

2014年以来,深度学习技术大放异彩,成为人脸识别的主流技术。在2014年的CVPR(31)大会上,Facebook发布了DeepFace技术,将大数据(400万人脸数据)与深度卷积网络相结合,在LFW数据集上取得了逼近人类的识别精度。同一时期,香港中文大学提出名为DeepID的深度网络结构(32)(33)(34),采用20万训练数据,在LFW数据集上第一次得到超过人类水平的识别精度。自此之后,研究者们不断改进网络结构,同时扩大训练数据规模,将LFW数据集上的识别精度推进到99.5%以上。

值得一提的是,深度学习具有强大的知识迁移能力。例如,研究者可以基于一个目标分类数据库训练出一个基础网络,基于该网络,只需利用少量的人脸数据即可得到一个强大的人脸识别系统。这类似于我们的眼睛,不论看山看水还是看人脸,都需要用同样的方式,即从进入眼睛的光线中提取出轮廓、色彩、大小等特征,因此这部分能力是通用的。迁移学习就是利用了神经网络中可共用的部分,将在其他任务上得到的模型迁移过来提高人脸识别的性能。因此,当前人脸识别的进步事实上是在机器视觉整体迅猛发展的大背景下取得的。这种在不同任务间互相借鉴的学习方式在深度学习之前是不可想象的。